知行读书会

怎样做一个大数据时代的明白人?

  • 有知有行 · 2021年5月5日
  • 5409
  • 55

知行读书会,每周三带你读一本好书。

生活在大数据时代,我们已经形成了一个基本的共识,那就是任何观点想要成立,都需要有数据支撑。再激烈的争辩,谁对谁错,一目了然,大数据会帮助我们更好地认识这个世界。

但是最近我读了一本书,有了新的看法,这本书叫《人人都在说谎》(Everybody Lies)。作者赛斯,是一名谷歌的数据分析师。赛斯在书里,列举了大量大数据带给我们的惊奇发现,很颠覆过往认知,值得一读。

恰逢五一假期,这回就不放书摘了,想简单和你聊聊,我看完这本书的感受。

祝开卷有知。

有知有行 雨白

合上书,我最深的体会是,在这个时代,观点不会随着数据的支撑变得强大,而是会变得越来越无力。

为什么这么说?我举个例子你就明白了。

这些年,有一个词非常流行,你可能听过,叫「消费降级」;还有另一个截然相反的词也非常热,叫「消费升级」。奇怪的是,这两个理论,每个都有很多数据支撑。

比方说,疫情之前我看过这么一份报道,某年的上半年,泡面、榨菜和低端白酒的销量大幅上涨,大家都耳熟能详的一个知名榨菜品牌,在这半年里净利润增长了 77%。那支持「消费降级」的一派,就会拿出全国各城市房地产市场近年来的价格走势图解释说,你看,房价太高,人要是想买房,必须得节衣缩食来攒钱,都已经到吃泡面榨菜的地步了。听起来好像有点道理,也很符合我们在生活中的观察。

可支持「消费升级」的一派,就不这么认为了。他们会说,你看,如果你仔细分析这几家企业的财报就会发现,他们销量上涨的关键词是产品升级。比如说方便面,销售额增幅最大的都是高档方便面,那些低档的干脆面销量可是下滑了 24%。所以说,这实际上反映了消费者的消费升级。

好像都挺有道理的,到底哪一派是对的?

他们说的都是对的,也都是错的。

之所以说他们说的都是对的,是因为今天的数据非常丰富,获取也非常容易。涂子沛老师在《数文明》里,就说过一句很经典的话,大数据会导致「人人皆有数,人人都有理」。一个人想要得出和其他人不一样的结论,总可以找到相应的数据来支撑自己。

如果是对经济乐观的人,给你的数据,当然全都维护消费升级;如果是一个对经济悲观的人,也会给你很多数据,让你相信消费降级才是对的。所以,要是单看他们给出的数据,消费确实升级了,消费也确实降级了。

为什么说他们说的也都是错的?这就这涉及到人常有的一类思维误区,叫做证实偏差。什么是证实偏差?就是遇到一个命题时,人们会倾向于寻找支持这个命题的证据,而忽略否定这个命题的证据。而大数据更是加重了我们的证实偏差倾向,所以无论是支持消费升级还是消费降级的人,他们都会忽视支持对方观点的数据。

你可能会说,是不是他们拿到的数据还不够多?如果他们能拿到更多数据,就能得出更靠谱的结论。事实上,科学家,包括数据科学家,也容易被证实偏差误导。

赛斯在书里就举了这么一个例子。曼彻斯特大学和印第安纳大学的计算机科学家,联合发表了一项研究,声称可以根据人们的推特(也就是美国的微博),来预测股票市场指数。

他们发明了一种算法,能根据人们每天发的内容,把所有的情绪进行编码,比如幸福、愤怒、沮丧等等。他们发现,如果有很多人在同一天表达「我感觉很平静」,那么六天后,道琼斯工业平均指数就很有可能会上涨。

这项研究一发表,很快就成立了一只对冲基金。结局你肯定已经猜到了,这只对冲基金一个月后就解散了。

这群数据科学家怎么会犯这么低级的错误呢?赛斯提出了一种解释,叫做「维度的诅咒」。大数据带给我们的一项诅咒就是,只要你测试的维度足够多,也就是变量足够多,你就很容易发现某两件事情之间存在强相关性。

就像这群数据科学家一样,他们相信能找到情绪和股票指数之间的关联,如果在过去,没有大数据工具,尝试过几种猜想,找不到相关性也就算了;但是现在的数据工具允许科学家不断测试几十种甚至上百种情绪和股票指数之间的关系,总有一种情绪会让他们发现,没错,就是它,这种情绪最能预测股票指数的起起落落。

但他们忽视了一点:这种强相关性,并不等同于因果关系。数据只能反映事实,但是无法给我们提供观点。数据可以向我们展示某两样东西存在强相关性,但是它不会告诉我们两者之间的因果关系。强相关性和因果关系之间,隔着一道看不见的鸿沟。而在绝大部分时间,我们容易把强相关性拧成因果关系,来解释这个世界。

大数据将这个困境展露无遗:真实世界远远比我们想象中的要复杂,草率地给出观点变得越来越危险 。罐装八宝粥销量下滑,是消费升级了,还是外卖发达了?电影票房上升,是因为经济形势不好,产生了所谓的「口红效应」,还是因为这两年院线建设越来越深入三四线城市?哪个是真的?

想要把任何一个真实世界的复杂问题抽象概括成一个答案,已经成了越来越艰难的任务。在过去,我们都想学牛顿或者爱因斯坦,竭尽全力把每个领域的知识抽象成几条定理,然后用它们来解释整个世界。

可到了今天,大数据给我们送了一份大礼: 就像「消费降级」和「消费升级」一样,哪怕每一派积累的数据再多,任何一种观点都不足以概括中国 14 亿人口的偌大市场。

搞懂了这点,就不难理解为什么我们在网上常常遇到「杠精」了。如果一个人总是试图以观点为接口和世界进行沟通协作,那么他很难意识到,自己观点体系里的哪一段字句会触碰到对方的禁忌,从而引起对方的反驳,彼此观点对观点,谁也说服不了谁。

什么才是和这个世界最好的沟通方式?在过去,我们觉得是观点。现在我有一个感受,越来越好的沟通工具是事实,以事实为接口,与世界进行信息交流与合作。观点从来都说服不了观点,但事实可以。

近几年网上有一个流行的词组,叫「不 judge」。Judge 是英文单词,意思是判断,「不 judge」的意思就是不要轻易给任何人事物下判断,不给观点,只讲事实。「不 judge」不代表一个人缺乏判断力,只是代表在未知全貌的情况下,不轻易做结论。

「不 judge」可能是这个时代最好的生存策略之一。提出「消费降级,经济不景气」,不如指出「某榨菜品牌的利润上涨了 77%」;说「产业升级,消费者追求品质」,不如给出「低档干脆面销量下滑 24%」的真实数据。我们能做的最大努力,是下极扎实的功夫,给出事实,摆出数据。如果不回到事实,总是想要抽象,那么就是让自己置身于巨大的风险当中。

最近有一个心得,那就是这个时代正在惩罚那些自以为有思想的人。在这个大数据时代,他们太容易找到能够支持自己的数据了。

想要做一个大数据时代的聪明人,或许,我们能做的最大努力,就是少谈观点,多摆事实,在数据面前保留一丝清明。

你怎么看待大数据?欢迎在想法区谈谈你的观点。

想法

发布想法
  • A. ๑ 嘟嘟℡ 

    大数据越来越常见的趋势,确实有很多只看局部来描述全局的 也许我们每次看到一些观点,要多想一下背后的数据支撑 即「独立思考」

    2022年6月25日
    0
  • 踏踏实实多大事儿

    不judge

    2022年5月17日
    0
  • Solitary

    大数据将这个困境展露无遗:真实世界远远比我们想象中的要复杂,草率地给出观点变得越来越危险 要警惕接受到的任何信息,持有怀疑态度(郑也夫,论文与治学),构建自己的信息优势(软实力课程)

    2021年12月8日
    0
  • zjp

    实事求是

    2021年5月26日
    0
  • 不二Wonder

    已加入书单✓「人人皆有数,人人都有理」的时代里,重点是在看似「正确」的诸多观点中,发现最坚实牢靠的观点。 在投资这种牵扯到真金白银的领域,需要特别花功夫去检验我们采信的观点。这要求我们做到「实事求是」与「反过来想」: 1. 「实事求是」第一要义是本文提的「以事实为基础」。其次,对于可以解释的问题,力求捋出因果关系,构建完整的因果链条,尽量避免过拟合、「数据挖掘」谬误。 2. 向芒格学习,「反过来想」 (1)这个观点在什么情况下不成立?这个策略在什么样的市场环境下失效? (2)什么样的新证据出现后,能推翻这个观点? (3)在不知道做什么能成功时,先研究清楚哪些东西注定会导致失败;避免愚蠢的错误是提高胜率最有效的方式。

    2021年5月8日
    0
  • 叫我小杨同学

    大数据时代,几乎每个人都可以为自己相信的观点找到相应的论据,但是,是对是错在当下没有人能够准确的知道,只能等待历史的证明。 所以,想要做一个大数据时代的聪明人,或许,我们能做的最大努力,就是少谈观点,多摆事实,在数据面前保留一丝清明 不judge,未知全貌,不予置评,或许才是更好的选择

    2021年5月8日
    0
  • danwiihin

    联系到月老刚刚做的直播,do not judge的内涵其实也是一样的。少看观点输出,挑拨对立与话题的内容,相较于观点,不如多重视背后的数据自身与隐含逻辑。在这个伪逻辑过多的时代,do not judge并不仅仅适合于投资领域,更是为人处世的方方面面。

    2021年5月7日
    0
  • 步枫

    所以我一直不喜欢'数据相关性'研究的原因就在于此,谁规定以前不相关以后就不相关了?光靠数据回测得出的结论能指引未来吗?我一直喜欢的是'因果相关性'研究,或者说有些东西的相关性分析是基于'逻辑'的,而不是基于'数据'的,甚至相关不相关你想想就知道了,'不言自明'的'非相关'他不香吗~ 最近更是在学习李善友的《第一性原理》,其中对于'演绎法'与'归纳法'的差别给了我很大的启发。'归纳法'的前提的条件是「连续性假设」,是一种'非逻辑的武断',然后我们还将一个在'边界'内的连续性假设推广到更广阔的时空中,可超越'边界'的「连续性假设」往往会出现巨大的错误,在这个错误发生之前,人们是不自知的。。大数据分析就是这样的「连续性假设」,但是却没有告诉我们成立的'边界'在哪? 雨白姐最后说更好的交流方式是'事实',因为'事实'可以'证伪'观点,可以戳破「连续性假设」带来的幻觉。不过最好的交流方式肯定是'逻辑',只是哪有那么多人去思考'逻辑'呢?

    2021年5月6日
    0
  • 磨牙小幺

    站的有多高看的就有多远 文章说来说去都是站的角度不一样 哪个逻辑可以自洽就用哪个逻辑 人总习惯于为自己找借口 归根结底还是人性 这是我目前找到的第一性原理

    2021年5月6日
    0
  • 随机漫步的猎手

    跟大数据时代相关的另外一个概念是“信息茧房”,大家越来越只相信自己相信的东西,而拒绝、排斥与自己相左的事实。 月风前几天的直播就很有意思,提到B站乃至现在各大自媒体的博主输出的内容分为三类,分别是情绪、观点和知识,吸引的受众面依次降低。 情绪最容易被调动、被夸大,受众只需要记住结论即可,不在乎逻辑。 观点尽管用各种数据支撑,但是倾向于输出“一家之言”,客观性难以保证。 知识也是以数据、事实为依据,但有完整的逻辑演绎和推导,受众自己可以得出结论。

    2021年5月6日
    0
划线
取消划线
分享
复制