大數據時代-讀書筆記
大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。
維克托最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關係的渴求,而取而代之關注相關關係。也就是說只要知道「是什麼」,而不需要知道「為什麼」。這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。
大數據時代的思維變革
大數據時代的思維變革主要有三個轉變。我們分別來了解一下。
不是隨機樣本,而是全體數據
在數字化時代,數據處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數據。但當我們談論能「說話」的數據時,我們指的遠遠不止這些。
實際上,我們分析問題的時候,首先,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。也就是說,以前,因為技術條件的限制,我們採集、記錄和處理數據的能力非常有限,所以,分析問題用到數據時,只能隨機採樣。而現在,技術條件已大大進步,我們採集、記錄和處理數據的能力已經有了質的提升。
所以,兩位作者提出「樣本=總體」的概念,認為我們現在應該分析所有的相關數據,而不僅僅是少量的採樣數據。隨機採樣是在以前技術條件有限的時候,我們不得已的一種選擇。它的優點是,在當時的環境條件下,能用最少的數據獲得最多的信息。但這種分析方法也有一個很難克服的缺陷,就是它很難呈現出全部數據中隱藏的一些細節信息。
2006年的德國世界盃足球賽,東道主德國隊和南美勁旅阿根廷隊在1/4決賽中遭遇,雙方激戰120分鐘後打成了1:1平,只好進入殘酷的點球大戰。最終,德國隊守門員萊曼表現神勇,撲出了阿根廷隊阿亞拉和坎比亞索兩名球員的點球,幫助德國隊晉級到了下一輪。不過,這個功勞可不能全都記在萊曼的頭上。
我們知道,足球比賽中罰點球時,點球點到球門線只有11米左右,在那些世界頂尖球員的腳下,球只需0.2秒就能從罰球點到達球門線。就算是世界上最優秀的守門員,也不可能在這麼短的時間裡做出有效的撲救動作。所以,有經驗的守門員都是事先決定好向球門的哪一邊傾斜自己的重心,以便撲救可能飛向這邊的罰球。
這是在賭一把,那麼怎麼才能提高概率呢?在比賽開始之前,他們就聘請專家分析了13000個點球的錄像,對阿根廷最優秀的7個點球射手的習慣了如指掌。比如,里克爾梅習慣射向球門的左側上角,克雷斯波長距離助跑時多射向球門右側,而短距離助跑多射向球門的左側等等。點球決賽開始前,德國隊的守門員教練把一張列有阿根廷球員踢點球習慣的秘密紙條塞給了萊曼,萊曼只需要根據紙條上的指令撲救就可以了。而阿根廷人對此一無所知,輸在了起跑線上,也最終輸掉了比賽。
像球員踢點球的習慣這樣的細節信息,只通過少數的幾次觀察自然是不可能獲得的,這也是抽樣分析法難以克服的缺陷。只有分析了一個球員的多數,最好是全部的點球記錄,才能把這種可能連球員自己都沒意識到的信息給挖出來。所以,作者認為,當技術條件的進步使我們已經能夠獲得並處理海量數據時,隨機採樣這種分析方法也就沒有什麼意義了。
不是精確性,而是混雜性
對大數據來說,數據的量比精確性更重要,只要數據量足夠大,有點錯誤的數據也不影響最終的分析結果。
隨機採樣分析對數據精確性的要求非常高,不能有一點偏差,因為採集的信息非常有限,這也就意味着細微的錯誤會被放大,甚至影響整個結果的準確性。但是當數據足夠多的時候,個別錯誤數據對整個分析結果的不利影響就非常小了,幾乎可以忽略不計,所以沒必要非得去較那個勁,花大力氣去確保所有數據的精確性。
假設你要測量一個葡萄園的溫度,如果整個葡萄園只有一個溫度測量儀的話,那你就必須確保這個測量儀是精確的。但如果每100棵葡萄樹就有一個測量儀,雖然可能有些測試的數據是錯誤的,甚至出現很多不同讀數的混亂情況,但眾多的讀數合起來卻可以提供一個更加準確的結果。
不是因果關係,而是相關關係
作者強調,在大數據時代,我們不必非得知道某一現象背後的原因。也就是說,大數據對因果關係興趣不大,而只關注相關關係。
比如,1768年,著名的庫克船長率領英國遠征隊前往南太平洋的塔希提島觀察金星凌日這種天文現象,之後又跑去澳大利亞和新西蘭溜達了一圈,直到1771年才回到英國。這趟遠征不僅帶回了數量驚人的天文學、地理學、氣象學、動植物學的資料,為這些學科之後的發展奠定了重要基礎,還創造了一個奇蹟,就是沒有一個人因為壞血病死在途中。
在人類遠洋航海的早期,會有一半以上的船員死在途中,再也回不了家了。最大的原因倒不是風浪和海盜,而是當時人們還一無所知的壞血病。16到18世紀,這種病奪走了200萬船員的生命。
一直到1747年,英國醫生詹姆斯·林德終於找到了對付壞血病的方法。他用患上壞血病的船員做了一個實驗,把船員分為兩組後,分別給予不同的治療,其中一組船員吃了大量的柑橘類水果,效果不錯,患者很快就痊癒了。現在我們都知道,船員的壞血病是因為在遠洋的過程中吃不到蔬菜和水果、缺乏維生素C導致的,吃了柑橘、補充了維生素C自然就好了。但當時的人可不知道這種因果關係,包括林德醫生自己也不知道,他能確定的只是吃了柑橘壞血病就好了這種相關關係。
庫克船長可不管那麼多,只要不死人就行,所以他的遠征隊起航時帶了大量的酸菜,而且每次靠岸時他都命令船員必須多吃新鮮的水果和蔬菜。而最終的結果也證明林德醫生是對的。
大數據時代的商業變革
大數據的核心就是挖掘出龐大的數據庫獨有的價值。萬事萬物都是可以數據化的,舍恩伯格甚至認為,世界的本質就是數據。一旦認識到這一點,就可以讓大數據為我們創造價值了。
大數據當前主要應用在商業領域,一般可以通過兩種方式為我們創造出巨大的價值。
提升運營效率
以前,通常通過兩種方法來提升運營效率。一是資源投入,比如用機器替代人力。還有就是提升管理,比如通過對員工的激勵,提升員工的工作意願,發揮他們的聰明才智。現在又多了一種方法,就是分析數據。
書中提到,某天,一位憤怒的父親衝進一家塔吉特商店(美國的一家連鎖零售商店),要求經理出來見他。這位憤怒的父親質問經理說,他的女兒還只是個高中生,你們商店為什麼要給她寄嬰兒用品的折扣券,這不是在鼓勵她懷孕嗎?商店的經理道了歉,安慰了這位憤怒的父親。可幾天後,當商店經理再次打電話給這位父親致歉的時候,他的語氣變得平和了,他對商店經理說:「我跟我的女兒談過了,她的預產期是8月份,是我完全沒有意識到這個事情的發生,應該說抱歉的是我。」
現在的問題是,這家商店是怎麼知道他的女兒懷孕了呢?答案是大數據分析。
對於一家商店來說,知道一個顧客是否懷孕能帶來很多商機,因為這是一對夫妻改變消費觀念的開始。他們會開始光顧以前不會去的商店,購買以前不會買的商品,漸漸對新的品牌建立忠誠等等。因此,塔吉特的市場專員向分析部求助,試圖找到一種在完全不和這些准媽媽直接接觸的情況下,僅通過一個人的購物方式,就可以判斷她是否已懷孕了的方法。
接到求助後,塔吉特的分析團隊分析了簽署嬰兒禮品登記簿的女性的消費記錄,並注意到,登記簿上的顧客會在懷孕大概三個月的時候買很多無香乳液,幾個月之後,她們會買一些鈣、鎂、鋅之類的營養品。最終,分析團隊找出了20多種關聯物,這些關聯物可以給顧客進行「懷孕趨勢」評分,甚至可以使塔吉特準確地預測顧客的預產期,這樣就可以在女性孕期的每個階段給她們寄送相應的折扣券進行促銷。
在這個案例中,塔吉特通過數據,識別出了自己的目標顧客,這樣,就可以進行精準營銷,提升了整個組織的運營效率。
洞察未來趨勢
通過對數據的分析,還可以讓我們洞察出未來的趨勢。
比如,2019年的雙11,天貓實現了2684億的銷售,事後的統計發現,最受歡迎的進口商品居然不是嬰兒奶粉或者奢侈品,而是貓糧、寵物驅蟲藥和貓砂盆。天貓國際數據顯示,雙11全天,寵物品類成交額同比增長近130%,其中貓糧成交額同比增長近700%,寵物保健品同比增長165%。
通過這些數據分析,作為負責人就應該知道怎麼做出調整。
大數據並不是萬能的,也有局限性。比如大數據不能取代人的判斷,也不能反映人性的力量。但是它卻能告訴我們一些經濟信息,這也是大數據時代的潛在價值。