大数据时代-读书笔记
大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
大数据时代的思维变革
大数据时代的思维变革主要有三个转变。我们分别来了解一下。
不是随机样本,而是全体数据
在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。但当我们谈论能“说话”的数据时,我们指的远远不止这些。
实际上,我们分析问题的时候,首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。也就是说,以前,因为技术条件的限制,我们采集、记录和处理数据的能力非常有限,所以,分析问题用到数据时,只能随机采样。而现在,技术条件已大大进步,我们采集、记录和处理数据的能力已经有了质的提升。
所以,两位作者提出“样本=总体”的概念,认为我们现在应该分析所有的相关数据,而不仅仅是少量的采样数据。随机采样是在以前技术条件有限的时候,我们不得已的一种选择。它的优点是,在当时的环境条件下,能用最少的数据获得最多的信息。但这种分析方法也有一个很难克服的缺陷,就是它很难呈现出全部数据中隐藏的一些细节信息。
2006年的德国世界杯足球赛,东道主德国队和南美劲旅阿根廷队在1/4决赛中遭遇,双方激战120分钟后打成了1:1平,只好进入残酷的点球大战。最终,德国队守门员莱曼表现神勇,扑出了阿根廷队阿亚拉和坎比亚索两名球员的点球,帮助德国队晋级到了下一轮。不过,这个功劳可不能全都记在莱曼的头上。
我们知道,足球比赛中罚点球时,点球点到球门线只有11米左右,在那些世界顶尖球员的脚下,球只需0.2秒就能从罚球点到达球门线。就算是世界上最优秀的守门员,也不可能在这么短的时间里做出有效的扑救动作。所以,有经验的守门员都是事先决定好向球门的哪一边倾斜自己的重心,以便扑救可能飞向这边的罚球。
这是在赌一把,那么怎么才能提高概率呢?在比赛开始之前,他们就聘请专家分析了13000个点球的录像,对阿根廷最优秀的7个点球射手的习惯了如指掌。比如,里克尔梅习惯射向球门的左侧上角,克雷斯波长距离助跑时多射向球门右侧,而短距离助跑多射向球门的左侧等等。点球决赛开始前,德国队的守门员教练把一张列有阿根廷球员踢点球习惯的秘密纸条塞给了莱曼,莱曼只需要根据纸条上的指令扑救就可以了。而阿根廷人对此一无所知,输在了起跑线上,也最终输掉了比赛。
像球员踢点球的习惯这样的细节信息,只通过少数的几次观察自然是不可能获得的,这也是抽样分析法难以克服的缺陷。只有分析了一个球员的多数,最好是全部的点球记录,才能把这种可能连球员自己都没意识到的信息给挖出来。所以,作者认为,当技术条件的进步使我们已经能够获得并处理海量数据时,随机采样这种分析方法也就没有什么意义了。
不是精确性,而是混杂性
对大数据来说,数据的量比精确性更重要,只要数据量足够大,有点错误的数据也不影响最终的分析结果。
随机采样分析对数据精确性的要求非常高,不能有一点偏差,因为采集的信息非常有限,这也就意味着细微的错误会被放大,甚至影响整个结果的准确性。但是当数据足够多的时候,个别错误数据对整个分析结果的不利影响就非常小了,几乎可以忽略不计,所以没必要非得去较那个劲,花大力气去确保所有数据的精确性。
假设你要测量一个葡萄园的温度,如果整个葡萄园只有一个温度测量仪的话,那你就必须确保这个测量仪是精确的。但如果每100棵葡萄树就有一个测量仪,虽然可能有些测试的数据是错误的,甚至出现很多不同读数的混乱情况,但众多的读数合起来却可以提供一个更加准确的结果。
不是因果关系,而是相关关系
作者强调,在大数据时代,我们不必非得知道某一现象背后的原因。也就是说,大数据对因果关系兴趣不大,而只关注相关关系。
比如,1768年,著名的库克船长率领英国远征队前往南太平洋的塔希提岛观察金星凌日这种天文现象,之后又跑去澳大利亚和新西兰溜达了一圈,直到1771年才回到英国。这趟远征不仅带回了数量惊人的天文学、地理学、气象学、动植物学的资料,为这些学科之后的发展奠定了重要基础,还创造了一个奇迹,就是没有一个人因为坏血病死在途中。
在人类远洋航海的早期,会有一半以上的船员死在途中,再也回不了家了。最大的原因倒不是风浪和海盗,而是当时人们还一无所知的坏血病。16到18世纪,这种病夺走了200万船员的生命。
一直到1747年,英国医生詹姆斯·林德终于找到了对付坏血病的方法。他用患上坏血病的船员做了一个实验,把船员分为两组后,分别给予不同的治疗,其中一组船员吃了大量的柑橘类水果,效果不错,患者很快就痊愈了。现在我们都知道,船员的坏血病是因为在远洋的过程中吃不到蔬菜和水果、缺乏维生素C导致的,吃了柑橘、补充了维生素C自然就好了。但当时的人可不知道这种因果关系,包括林德医生自己也不知道,他能确定的只是吃了柑橘坏血病就好了这种相关关系。
库克船长可不管那么多,只要不死人就行,所以他的远征队起航时带了大量的酸菜,而且每次靠岸时他都命令船员必须多吃新鲜的水果和蔬菜。而最终的结果也证明林德医生是对的。
大数据时代的商业变革
大数据的核心就是挖掘出庞大的数据库独有的价值。万事万物都是可以数据化的,舍恩伯格甚至认为,世界的本质就是数据。一旦认识到这一点,就可以让大数据为我们创造价值了。
大数据当前主要应用在商业领域,一般可以通过两种方式为我们创造出巨大的价值。
提升运营效率
以前,通常通过两种方法来提升运营效率。一是资源投入,比如用机器替代人力。还有就是提升管理,比如通过对员工的激励,提升员工的工作意愿,发挥他们的聪明才智。现在又多了一种方法,就是分析数据。
书中提到,某天,一位愤怒的父亲冲进一家塔吉特商店(美国的一家连锁零售商店),要求经理出来见他。这位愤怒的父亲质问经理说,他的女儿还只是个高中生,你们商店为什么要给她寄婴儿用品的折扣券,这不是在鼓励她怀孕吗?商店的经理道了歉,安慰了这位愤怒的父亲。可几天后,当商店经理再次打电话给这位父亲致歉的时候,他的语气变得平和了,他对商店经理说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的是我。”
现在的问题是,这家商店是怎么知道他的女儿怀孕了呢?答案是大数据分析。
对于一家商店来说,知道一个顾客是否怀孕能带来很多商机,因为这是一对夫妻改变消费观念的开始。他们会开始光顾以前不会去的商店,购买以前不会买的商品,渐渐对新的品牌建立忠诚等等。因此,塔吉特的市场专员向分析部求助,试图找到一种在完全不和这些准妈妈直接接触的情况下,仅通过一个人的购物方式,就可以判断她是否已怀孕了的方法。
接到求助后,塔吉特的分析团队分析了签署婴儿礼品登记簿的女性的消费记录,并注意到,登记簿上的顾客会在怀孕大概三个月的时候买很多无香乳液,几个月之后,她们会买一些钙、镁、锌之类的营养品。最终,分析团队找出了20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分,甚至可以使塔吉特准确地预测顾客的预产期,这样就可以在女性孕期的每个阶段给她们寄送相应的折扣券进行促销。
在这个案例中,塔吉特通过数据,识别出了自己的目标顾客,这样,就可以进行精准营销,提升了整个组织的运营效率。
洞察未来趋势
通过对数据的分析,还可以让我们洞察出未来的趋势。
比如,2019年的双11,天猫实现了2684亿的销售,事后的统计发现,最受欢迎的进口商品居然不是婴儿奶粉或者奢侈品,而是猫粮、宠物驱虫药和猫砂盆。天猫国际数据显示,双11全天,宠物品类成交额同比增长近130%,其中猫粮成交额同比增长近700%,宠物保健品同比增长165%。
通过这些数据分析,作为负责人就应该知道怎么做出调整。
大数据并不是万能的,也有局限性。比如大数据不能取代人的判断,也不能反映人性的力量。但是它却能告诉我们一些经济信息,这也是大数据时代的潜在价值。