知行读书会

怎样做一个大数据时代的明白人?

  • 有知有行 · 2021年5月5日
  • 5409
  • 55

知行读书会,每周三带你读一本好书。

生活在大数据时代,我们已经形成了一个基本的共识,那就是任何观点想要成立,都需要有数据支撑。再激烈的争辩,谁对谁错,一目了然,大数据会帮助我们更好地认识这个世界。

但是最近我读了一本书,有了新的看法,这本书叫《人人都在说谎》(Everybody Lies)。作者赛斯,是一名谷歌的数据分析师。赛斯在书里,列举了大量大数据带给我们的惊奇发现,很颠覆过往认知,值得一读。

恰逢五一假期,这回就不放书摘了,想简单和你聊聊,我看完这本书的感受。

祝开卷有知。

有知有行 雨白

合上书,我最深的体会是,在这个时代,观点不会随着数据的支撑变得强大,而是会变得越来越无力。

为什么这么说?我举个例子你就明白了。

这些年,有一个词非常流行,你可能听过,叫「消费降级」;还有另一个截然相反的词也非常热,叫「消费升级」。奇怪的是,这两个理论,每个都有很多数据支撑。

比方说,疫情之前我看过这么一份报道,某年的上半年,泡面、榨菜和低端白酒的销量大幅上涨,大家都耳熟能详的一个知名榨菜品牌,在这半年里净利润增长了 77%。那支持「消费降级」的一派,就会拿出全国各城市房地产市场近年来的价格走势图解释说,你看,房价太高,人要是想买房,必须得节衣缩食来攒钱,都已经到吃泡面榨菜的地步了。听起来好像有点道理,也很符合我们在生活中的观察。

可支持「消费升级」的一派,就不这么认为了。他们会说,你看,如果你仔细分析这几家企业的财报就会发现,他们销量上涨的关键词是产品升级。比如说方便面,销售额增幅最大的都是高档方便面,那些低档的干脆面销量可是下滑了 24%。所以说,这实际上反映了消费者的消费升级。

好像都挺有道理的,到底哪一派是对的?

他们说的都是对的,也都是错的。

之所以说他们说的都是对的,是因为今天的数据非常丰富,获取也非常容易。涂子沛老师在《数文明》里,就说过一句很经典的话,大数据会导致「人人皆有数,人人都有理」。一个人想要得出和其他人不一样的结论,总可以找到相应的数据来支撑自己。

如果是对经济乐观的人,给你的数据,当然全都维护消费升级;如果是一个对经济悲观的人,也会给你很多数据,让你相信消费降级才是对的。所以,要是单看他们给出的数据,消费确实升级了,消费也确实降级了。

为什么说他们说的也都是错的?这就这涉及到人常有的一类思维误区,叫做证实偏差。什么是证实偏差?就是遇到一个命题时,人们会倾向于寻找支持这个命题的证据,而忽略否定这个命题的证据。而大数据更是加重了我们的证实偏差倾向,所以无论是支持消费升级还是消费降级的人,他们都会忽视支持对方观点的数据。

你可能会说,是不是他们拿到的数据还不够多?如果他们能拿到更多数据,就能得出更靠谱的结论。事实上,科学家,包括数据科学家,也容易被证实偏差误导。

赛斯在书里就举了这么一个例子。曼彻斯特大学和印第安纳大学的计算机科学家,联合发表了一项研究,声称可以根据人们的推特(也就是美国的微博),来预测股票市场指数。

他们发明了一种算法,能根据人们每天发的内容,把所有的情绪进行编码,比如幸福、愤怒、沮丧等等。他们发现,如果有很多人在同一天表达「我感觉很平静」,那么六天后,道琼斯工业平均指数就很有可能会上涨。

这项研究一发表,很快就成立了一只对冲基金。结局你肯定已经猜到了,这只对冲基金一个月后就解散了。

这群数据科学家怎么会犯这么低级的错误呢?赛斯提出了一种解释,叫做「维度的诅咒」。大数据带给我们的一项诅咒就是,只要你测试的维度足够多,也就是变量足够多,你就很容易发现某两件事情之间存在强相关性。

就像这群数据科学家一样,他们相信能找到情绪和股票指数之间的关联,如果在过去,没有大数据工具,尝试过几种猜想,找不到相关性也就算了;但是现在的数据工具允许科学家不断测试几十种甚至上百种情绪和股票指数之间的关系,总有一种情绪会让他们发现,没错,就是它,这种情绪最能预测股票指数的起起落落。

但他们忽视了一点:这种强相关性,并不等同于因果关系。数据只能反映事实,但是无法给我们提供观点。数据可以向我们展示某两样东西存在强相关性,但是它不会告诉我们两者之间的因果关系。强相关性和因果关系之间,隔着一道看不见的鸿沟。而在绝大部分时间,我们容易把强相关性拧成因果关系,来解释这个世界。

大数据将这个困境展露无遗:真实世界远远比我们想象中的要复杂,草率地给出观点变得越来越危险 。罐装八宝粥销量下滑,是消费升级了,还是外卖发达了?电影票房上升,是因为经济形势不好,产生了所谓的「口红效应」,还是因为这两年院线建设越来越深入三四线城市?哪个是真的?

想要把任何一个真实世界的复杂问题抽象概括成一个答案,已经成了越来越艰难的任务。在过去,我们都想学牛顿或者爱因斯坦,竭尽全力把每个领域的知识抽象成几条定理,然后用它们来解释整个世界。

可到了今天,大数据给我们送了一份大礼: 就像「消费降级」和「消费升级」一样,哪怕每一派积累的数据再多,任何一种观点都不足以概括中国 14 亿人口的偌大市场。

搞懂了这点,就不难理解为什么我们在网上常常遇到「杠精」了。如果一个人总是试图以观点为接口和世界进行沟通协作,那么他很难意识到,自己观点体系里的哪一段字句会触碰到对方的禁忌,从而引起对方的反驳,彼此观点对观点,谁也说服不了谁。

什么才是和这个世界最好的沟通方式?在过去,我们觉得是观点。现在我有一个感受,越来越好的沟通工具是事实,以事实为接口,与世界进行信息交流与合作。观点从来都说服不了观点,但事实可以。

近几年网上有一个流行的词组,叫「不 judge」。Judge 是英文单词,意思是判断,「不 judge」的意思就是不要轻易给任何人事物下判断,不给观点,只讲事实。「不 judge」不代表一个人缺乏判断力,只是代表在未知全貌的情况下,不轻易做结论。

「不 judge」可能是这个时代最好的生存策略之一。提出「消费降级,经济不景气」,不如指出「某榨菜品牌的利润上涨了 77%」;说「产业升级,消费者追求品质」,不如给出「低档干脆面销量下滑 24%」的真实数据。我们能做的最大努力,是下极扎实的功夫,给出事实,摆出数据。如果不回到事实,总是想要抽象,那么就是让自己置身于巨大的风险当中。

最近有一个心得,那就是这个时代正在惩罚那些自以为有思想的人。在这个大数据时代,他们太容易找到能够支持自己的数据了。

想要做一个大数据时代的聪明人,或许,我们能做的最大努力,就是少谈观点,多摆事实,在数据面前保留一丝清明。

你怎么看待大数据?欢迎在想法区谈谈你的观点。

想法

发布想法
  • 孟岩

    数据是结果,它无法完美地体现出用户行为。它可以告诉我们 what,但很难去还愿 Why。换句话说,如果我们完全数据去建模出一个系统,未必能输出我们期待的 What ~ 我越来越觉得,数据是信息,无论是研发策略,还是打造产品,我们不应该完全靠大数据和回测来帮助我们构建系统,而应该把它们当作输入的信息。通过这些信息,再加上我们的知识和直觉,做出决策。

    2021年5月5日
    74
  • 眼里有光的azure

    突然回忆起写GRE作文时常用的逻辑谬误:相关关系(或时间先后关系)不等于因果关系。。。 和投资也是有联系的,《漫步华尔街》里就说:关于市场如何运行,人们可以根据自己看到的数据得出自己的观点,可是问题是这是真实有用的吗?—— “如果你仔细观察过去任何一个时段的股价,你几乎总能找到某种在这个时段里有效的技术策略。如果你尝试足够多的不同的选股标准,最终总会找到一个策略,能选出这一时段表现最好的股票。当然,真正的问题是,这个策略在不同的时段是否有效。” 不过我感触更深的在于沟通。比如指出一个显而易见的错误后,他人跟我说“我没有错”这是一个事实,我的感受是“???承认自己错了这么难吗”,这则是一个【非常主观】的、【依据不足】的观点。如果我继续去验证它、获取和补足更多信息,那么很可能会发现另一种可能:对方阴差阳错的确没有意识到错误的存在,并不如我所想那般显而易见。而这和承认难不难的没有半毛钱关系。 所以呢,还是要多多实践非暴力沟通啊:我观察到了一个事实,我的感受是xxx,我希望 xxx。然后邀请对方来说出事实和感受的另一面。 @认识「有知有行」的第288天 2021.05.05

    2021年5月5日
    24
  • 新峰

    想起刘润老师的一篇讨论事实、观点、立场、信仰的文章,大意是: 今天天气很热是不是事实? 这不是事实,今天30度,才是事实; 热,是你的观点; 你的知识结构,你的信息环境,你的决策模型,决定了你的观点; 你是物业公司的,你一边冒汗,一边说,我不热,我就是不热; 这是你基于自己的「立场」在阐述你的观点:你说热,就要给整个大厦开空调了; 观点背后还有逻辑自洽的信仰在起作用:信仰都是对的,因为你无法证明他是错的; ···也许,我们可以研究对方的信仰和立场,去观察那些事实和观点; 嗯,最后这句是我自己的,基于立场😀😀

    2021年5月5日
    15
  • 夜不语

    只有数据本身是客观的,其他的行为,哪怕只是转述数据,都是带有主观色彩的。 很多时候,根本不需要撒谎,只要着重描述数据中的一部分,得出的结论就会大相径庭。 现在虽然信息爆炸,但是信息茧房效应尤为明显,站在各个平台的立场上,能够培养者用户思想一边倒以增加用户黏性自然是好的,像豆瓣,微博,小红书,都有自己的用户画像。 但是站在用户的立场上,真的只是想看一些客观理智的讨论,现在每天打开手机就被平台强行输出情绪,感觉思想被**了一样。 原本以为知乎会不一样,但现在知乎也越来越多营销号,消费爱国情绪和男女对立,抖机灵的越来越多。果然赚钱就是得跪着啊……

    2021年5月5日
    7
  • 苏源

    我接触大数据很少,而且几乎不看新闻,反而会发现,你的生活并没有什么影响!一些重大新闻,周围可以告诉你!反而喜欢慢下来的感觉,就像这个假期,大家休息了都想干点什么,反而我觉得不一定假期非得干点什么,安静的在家待着也挺好

    2021年5月5日
    5
  • 彭晶晶

    正好五一看了一点月风的直播回放,聊到了情绪输出、观点输出、知识输出的受众是依次递减的。 这可能就是我们身边充斥着观点而缺少知识(事实)的一个因素。 (文章说相关不是因果,然后我就在评论里搞因果😛) 说回来,我目前怎么看待大数据? 尽量让自己有意识地开放性看待,在能深入的部分深入,搞明白底层逻辑,在看不明白的地方轻轻放过,不强求找联系。 举个有知有形反复强调的例子。 事实数据是这样:过去的两年,公募基金的净值增长非常不错,但是大部分基民依旧是赔钱的。 基于此,能发散出的观点就可以有:“a股不适合散户”。 这样的观点可能可以阻止一部分去股市赔钱,但是更多的,这个观点其实是我们去股市赚钱的一个拦路虎。 如果我们能深入到这个观点之下,研究一下为什么基民不赚钱的问题,那么这其实就是一个机会入口。 总结一下,第一性原理很重要。如此,才不会人云亦云。

    2021年5月6日
    4
  • 无知之幕 MAM

    有几个想法,丢出来和大家讨论一下: ①大数据获得的只是过去行为的结果,而且是人类短期行为的结果,而短期行为有太多的偶然性与随机性,甚至结果都未必真的有相关性,就跟别提因果性了; ②人类大脑在进化的过程中,由于处理的信息和数据相对简单,特别倾向于在不存在因果关系的事物之间,建立因果关系,容易犯错已经写在了我们的基因里; ③即使我们有幸发现并证明了,很多与人的行为相关的规律,也都应该有比较明确的适用范围,超出这个范围,或者基本约束条件改变了,结果就会大不相同…… 检验一个观点能否成立的基本做法: A.检查逻辑是否自洽,如有「异乎寻常的逻辑严整性」那就是最好了; B.检查该观点是否符合事实,是否有明确的事实与之冲突,该观点是否能够解释大部分过往事实; C.检查该观点能否在限定条件下,对未来做出概率性预言,能否验证预言…… 即使以上三点都满足,也未必就证明观点成立,因为有时候,错误的认知反而会有成功的结果…… 几个🌰,美国南北战争长期以来的基本观点是,北方资本主义经济的生产力和生产效率,要远高于南方奴隶制庄园经济,也是我曾任笃信自由市场无敌天下的重要论据。但是,福格尔教授给出了异乎寻常的论证结果,以下观点,引自秦晖教授文章,转述如下 「从战后1960年代开始,有些人注意到一个现象,历史上有时候在一个全球化市场上,如果奴隶制是和一个比你更发达的、有很大购买力和创新来源的市场去搞一体化的话,那么有时候,奴隶制经济或者农奴制经济,似乎要比自由劳动更有竞争力、更有效率。当然如果它是封闭的,没有那种一体化市场,就像典型中世纪的农奴制或非洲的奴隶制,就没有这回事了。」 与黑人妻子相濡以沫几十载的诺贝尔经济学奖得主福格尔教授,原本是想证明奴隶制既不人道,也没有效率,但经过大量实证研究,详尽的数据整理,科学的分析,最终得出来美国南北战争前,农奴制南方经济效率高于自由制北方经济,福格尔教授当时的解释是即使效率更高,奴隶制在价值观上依然是要抵制的。

    2021年5月5日
    4
  • 木也

    我觉得摆事实的最终归宿还是要形成一个观点,然后拿来验证实践,辅助生活。难点就在于怎么客观全面的去看待全部的事实,不陷入思维定势、织造信息茧房。文中有句话特别赞同,“那就是这个时代正在惩罚那些自以为有思想的人”。不要自以为是,摆出一副不听不听**念经的姿态。以事实为依据,多听多想,换位思考,才能尽可能形成正确的观点。

    2021年5月5日
    3
  • 逆水行舟

    数据出现矛盾,有没有可能是因为站的还不够高,大数据还不够大?比如消费这件事,如果可以统计出全国各个行业的实际消费情况,然后计算其中消费升级有哪些,占比多少,同样计算出消费降级的有哪些,占比多少,最后将这些足够大的数据进行汇总,再输出结论,消费到底升级还是降级的答案应该是明确的。 只是一个想法哈,欢迎探讨~

    2021年5月6日
    2
  • 008

    尊重事实,不judge。大数据时代,用数据说明一个问题,太容易了。我们如何在大数据中或者别人的评价中得出更准确的结论,如何抽取有用且准确的信息,这是一个问题。不要盲目听取别人的观点,有自己的判断才行。最后还是要喊出自己的目标,45岁实现财富自由!

    2021年5月6日
    2
划线
取消划线
分享
复制