數據如何誤導了我們-讀書筆記

出自楠悦读

有人說,「數據決定生活」。在大數據時代,這句話已成為不辯自明的真理。幾乎無處不在的數據,小能反映成績、體重、天氣,大能左右投票結果、影響經濟增速、抹殺氣候變化。然而,許多數據其實並不像表面上標榜的那樣客觀、公正,反而常常被人操縱,來誤導我們。

在本書中,荷蘭計量經濟學家、數據統計記者桑內·布勞就將帶領讀者「數」落世界,通過真實案例,從南丁格爾用大數據來挽救生命,到美國煙草業報告造假,再到歐盟公投中的票數搖擺,揭示日常生活中的數據偏見,教你如何不再盲信數字,練成大數據時代人人必修的「避坑大法」。

接下來我從兩方面為大家解讀這本書:第一方面,為何數據會誤導我們?第二方面,我們如何避免落入數據的陷阱?

為何數據會誤導我們

我們知道,數字在我們的生活中已經變得過於重要。數字的導向性已經大到讓我們再也無法繼續忽視濫用數字的現象。數據原本應該是客觀、公正的,但是在很多時候,數字本身和文字一樣是無辜的,犯錯的是數字背後的人,他們操縱數據來誤導我們,導致我們落入數據的陷阱。

比如心理學家用數字包裝種族歧視的觀點;世界頂尖性學研究員採集數據的過程其實見不得光;煙草巨頭們濫用數據,上百萬人為此賠上了性命等等。那麼我們為何會陷入這種數據的騙局呢?為什麼很多時候,一些看似客觀的數據其實是有誤導性的?作者從三個方面向我們解釋了這個問題背後的真相。

數字標準化

數字標準化,指的是,給你的研究對象建立一個統一的測量標準。

比如,法國大革命(1789—1799年)之後,革命黨人決定廢除所有地方計量單位,他們提出公制單位的設想。比方說,革命黨人想按土地面積徵稅,但國內每個人都有一套自己的距離單位,那稅該怎麼征呢?這場變革持續了一段時間,最終成功地將公制單位的概念(後來的國際單位制),從法國推廣到了世界上絕大多數國家。現在只有3個國家——美國、利比亞和緬甸——仍舊使用英制單位,即質量單位為「磅」,長度單位為「英里」等等。 這麼說可能不太好理解,我們換一個例子。如果我說我成功減肥了,這不是一種統一的衡量標準。但如果我換一個說法,我的體重成功地減掉了20斤,那麼這就是一個標準的說法了。

我們日常生活的重量、公制單位概念、長短、尺度等等,都是客觀存在的事情,所以非常容易衡量,這就是一種標準化。但是隨着社會的發展,不是所有的概念都能轉化為統一的標準,或者準確全面地表述出來。

比如,GDP,我們知道,GDP是國內生產總值,它是一個經濟體在一段時間內所製造的商品和提供的服務的市場價格的總和。當我們在說一個國家貧窮或者富有的時候,主要看的是人均GDP,它能體現一個國家民眾的平均收入水平。但是,多年來,很多人反對把GDP作為衡量一國富裕程度。 有的人說,GDP沒有考慮到那些發生在市場交易以外的創造價值的行為,沒有考慮環境惡化等隱性成本,沒有考慮收入分配等等。人們也嘗試提出過一些替代GDP的複合指標,比如「社會健康指數」「國民幸福指數」等等。但是,沒有哪個指標能做到盡善盡美。

也就是說,對一件事物的衡量標準大多數是人為的價值判斷,研究的人不同,那麼標準也就不同。

比如,第一次世界大戰期間,哈佛大學的心理學家羅伯特·耶基斯對175萬名美軍新兵進行了智力測試。耶基斯和其他智力研究專家一起擬定了一份可供大規模使用的智力測試題。讓這些新兵填寫,結果顯示美國白人男兵的平均心智年齡只有13歲,再往下是來自東歐和南歐的移民,最後是黑人,平均心智年齡只有10.4歲。

不僅僅是羅伯特·耶基斯,耶爾納茲·拉莫塔辛在2016年接受荷蘭新聞網站Brandpunt+採訪時就表示:「人種之間的智商存在着差異。這一點是經過科學證明的。兩年後,由於拉莫塔辛的這番言論,作為荷蘭民主論壇黨候選人的他在阿姆斯特丹市政府選舉中引發了不小的爭議。排山倒海的批評聲浪不斷襲來,最終,他決定退出競選。

持有這種觀點的人可不止拉莫塔辛一個。從耶基斯的智力測試起,關於智商和膚色的討論已經湧現了一浪又一浪。教育心理學家阿瑟·詹森在1969年就曾表示,黑人和白人學生之間的智商差異是由遺傳基因決定的。當年的這番言論還引發了一場國際上的動亂。

但是這個結果準確嗎?作者說,並非如此。對175萬名新兵進行智力測試的項目看起來似乎令人印象深刻,但實際上,數據採集的過程既草率又匆忙。

再比如,「韋氏智力測試」,是美國醫學心理學家大衛•韋克斯勒主持編制的。這是世界上應用最廣泛的智力測試之一,裡面的題目主要涉及常識題、算術題、找不同、拼圖案等等,主要關注的是被試者的抽象思維能力。但問題是,抽象思維能力強,就意味着智力水平高嗎?並不一定。這只是智力測試設計者的一個價值判斷而已。

所以,作者說,如果換不同地區、不同種族的人來設計智力測試,那測試的內容可能完全不同,因為他們都會把自己認為重要的問題放進去。

數據收集

數據收集中有一個民意調查,想必大家都很熟悉。從本質上來看,民意調查其實就是從所有民眾當中抽取一小部分作為樣本,然後調查樣本人群對某件事的看法,以此來判斷民眾對於這件事的整體意見。然而,在現實中,人們卻經常發現,民意調查的結果,跟實際情況並不相符。

比如,1948年的美國大選,勝出者是杜魯門,這我們都知道。但其實,在大選結果出來之前的民意調查里,候選人杜威的支持率是超過杜魯門的。選舉結果公布前,《芝加哥每日論壇報》的主編對杜威會贏得大選這一點深信不疑,以至於他甚至沒有等待最終的結果出爐,在大選的前一天晚上就讓人在報紙上印下了這條標題。

作者說,在2016年特朗普當選總統之前,也有許多媒體、專家曾根據民意調查的結果預測,特朗普會被希拉里打敗。《紐約時報》在大選後的第二天發問:「他是怎麼取得如此壓倒性的勝利的?為什麼之前幾乎沒有人——沒有專家、沒有民意調查、沒有媒體預想過這種情況?」等等。

我們平時的生活中,這種情況比比皆是,比如很多網站,會通過問卷調查的方式統計用戶對於網站的功能滿意度。但是,在民意調查中獲得高支持率的選項,卻跟現實中的民眾意願相左的情況,也時有發生。

作者認為,如果調查問卷的設計是合理的、中立的,問卷上的問題不具有誤導性,那麼主要的問題大概率是出現在對於樣本人群的選擇上。很多民意調查,只是在某些特定群體中進行。

比如,知名心理學家亨里奇就曾經說過:心理學研究中的樣本是「怪異」的,因為他們都是來自西方的、受過教育的……具有民主意識的人;最終的心理學研究結果通常會用「全人類」一詞概括,但事實上,研究採用的那些「怪異的」樣本,跟其他群體之間,其實存在着極大的差異。

對於這類「樣本局限性」問題,人們也在努力尋找解決方案。比如,隨機抽樣調查,先把要調查的所有民眾都列出來,然後從中隨機篩選出要採訪的樣本去聯繫;按照真實的人數比例來設計樣本人數,再去全國各地尋找受訪者等等。但這些方法也並不完美。比如,調查者可能會拒絕參與調查,那麼最後被採訪的那些人的代表性也會有所下降。

所以,作者提醒我們,人們採集到的數據永遠不可能精準地反映現實;透過數據看現實,就像是透過磨砂玻璃看東西一樣——你可以看到一個大致的輪廓,但永遠都無法完全看清楚。

數據分析

作者認為,數據分析有時候會欺騙我們,將相關性和因果關係混為一談。也就是說,由於兩個事物之間存在着某種聯繫,人們便會自動認為是其中的一件事導致了另一件事。

哈夫在書中就曾舉過一個很妙的例子:人們可以通過計算一戶人家屋頂上鸛鳥巢穴的數量,估算這家有多少個嬰兒。換句話說,嬰兒和鸛之間是有聯繫的。但是孩子並非由這種黑白相間的鳥帶來的。這兩者之間的聯繫(相關性)並不意味着是其中一方導致了另一方(因果關係),因為很可能還有另外的因素在左右着這兩件事物。

這是一種「偽因果關係」。首先,這種觀察可能是一種偶然事件。因為還可能存在另外一種因素在同時影響着鸛鳥的數量跟孩子的數量。

比如,一個房子越大,房子裡的孩子往往也就越多;而與此同時,這個房子上的煙囪數量也更多,於是就會吸引到更多的鸛鳥前來築巢。也就是說,是房子的大小同時影響着鸛鳥的數量跟孩子的數量,並不是這兩者之間真的存在因果關係。

除了偶然事件和缺少了一個因素以外,另一種情況可能是關聯(也可能)是反着的。

比如,下雨的時候,你能看見街上有許多人帶着傘。那我們能說,是雨傘導致了下雨嗎?當然不是。是因為下雨人們才都帶着雨傘。

哈夫表示,一件事情的起因和結果並不總是那麼清晰。倘若一位有錢人持有很多股票,那麼他是由於這些股票變得有錢嗎?還是因為他很有錢所以購入了許多股票?兩種說法都是成立的,而因果關係甚至可以兩頭都說得通:一個人很有錢—他去買股票—變得更富有—購進更多股票,等等。所以,我們需要去識別這些數據,不要讓這些數據誤導我們。那麼我們應該如何避免讓這些數據誤導我們呢?

如何避免落入數據的陷阱

我們先來看一個案例:

2018年4月作者在NOS的網站上看到一標題:「一杯酒實際上已經過量了。」標題下面的文章中寫道,如果你每天不止喝一杯酒,那你就已經面臨着早死的風險。

這篇文章引用了著名期刊《柳葉刀》上發表的一篇論文,總共涉及83項研究、60萬名研究人員。儘管這個結論的確令人印象深刻,但相關性並不等於因果關係。

這一點,了解循證醫學的研究人員維奈·普拉薩德也注意到了。於是,他在深入研究了《柳葉刀》上刊登的這篇論文後,簡單粗暴地在推特上寫道:「一組科學家證明,人們遏制不了對屁話科學和扯淡的健康新聞的渴望。」隨後,普拉薩德又發了30多條推文來解釋他先前的言論。

他提到了出版偏見,也就是只有發現了關聯的研究才會被發表出來。他還指出,這項研究僅僅調查了很短一段時間內的酒精消費量,並且,儘管研究人員在喝啤酒的人中發現了較高的死亡風險,但在喝葡萄酒的人中卻沒有發現。於是,普拉薩德建議,與其說是酒精,還不如說喝啤酒的人的低收入才不健康。

一般來說,人們只需通過問幾個問題就可以輕鬆地識別這些錯誤。第一,標準化是如何進行的?第二,數據是通過什麼方式採集的?第三,其中是否存在因果關係?

但作者說,有時候我們還需警惕自己陷入非理性的思維當中,比如我們說到的酒精的案例,作者看到這項研究的後非常生氣,認為這個結論大概率是假的。為什麼?除了作者對數據持有懷疑的態度以外,另一個原因是她本身很喜歡跟朋友一起聚會喝酒,不想被這個數據影響了興致。

後來,普拉薩德的醫學研究人員在網上公開指出,這篇研究存在問題以後,她瞬間覺得很暢快,感覺自己可以放心喝酒了。但後來,她察覺到,自己的判斷,其實嚴重地受到了個人感受的影響。

而當她再一次回頭翻看普拉薩德在網上發的文字的時候,才發現,普拉薩德從來都沒說過喝酒無害,他只是說這項研究本身有問題而已,是作者自己選擇了一種符合自己理念的解讀方式。這種情況在幾乎所有人身上都會出現,我們都往往會以自己喜歡的方式,去解讀我們所接收到的外部信息。所以,我們首先要做的就是,察覺到自己在看到某個數據時候的感受。然後多點幾下鼠標繼續調查。

不管是線上還是線下,搜索一下對其持有相反意見的人怎麼說。不要只讀那些正好和你的意見相契合的文章,還要去尋找與你的信念背道而馳的文章來讀一讀,儘管它們可能會令你感到不適、生氣或者絕望。正如作家蒂姆·哈福德所說:「再多點一下鼠標。」

作者做了一個測試。她在谷歌上搜索了一下有關酒精研究的更多信息,很快便找到了各類表明酒精與癌症之間存在因果關係的研究。例如,曾有一項在狒狒身上進行的酒精實驗,最終結果是狒狒患上了肝病。另外還有一項元研究的結果顯示,患乳腺癌的風險與酒精攝入之間存在線性關係。搜索之後她便漸漸了解到,喝酒給身體帶來的主要是負面影響,對於這一點專家們早就已經達成了共識。這也就是為什麼,從2015年開始,作者所在國家——荷蘭——的衛生委員會一直建議民眾,每天最多只喝一杯酒。

作者認為,任何研究都不是百分之百確定,這就是科學的本質。大多數的研究,都是在某個特定的時間點,對某個國家內的某個特定群組進行的。人們永遠可以說,某項研究結果只是一個偶然事件,因此它的結論的適用範圍是特定的。

如果對於某件事情,有很多不同背景的研究人員,採用了不同的研究方法去研究,最後大多得出了相似的結論,那麼就可以算是一項「科學共識」。

最後,作者還說,如果你想要鑑別某種行為是不是濫用數據,了解認知偏差以及個人直覺很重要。不過,也許最重要的,你得弄清楚這個問題:這份數據由誰提供?數據的結果與此人存在利益關聯嗎?

數據如何誤導了我們 導圖
數據如何誤導了我們 導圖