---
title: "怎样做一个大数据时代的明白人？"
author: "有知有行"
author_type: "team"
date: "2021-05-05"
updated: "2021-05-05"
column: "知行读书会"
content_type: "book_review"
description: "或许，我们能做的最大努力，就是少谈观点，多摆事实。"
image: "https://asset.youzhiyouxing.cn/image/2021/05/05/01F4Y2DGDFNJTE80CJ38M4PEX8.jpg"
reads: "5410"
word_count: "2772"
reading_time: "6 min"
language: "zh-CN"
url: "/materials/770"
canonical: "https://youzhiyouxing.cn/materials/770"
site: "有知有行"
---

> 或许，我们能做的最大努力，就是少谈观点，多摆事实。

知行读书会，每周三带你读一本好书。

生活在大数据时代，我们已经形成了一个基本的共识，那就是任何观点想要成立，都需要有数据支撑。再激烈的争辩，谁对谁错，一目了然，大数据会帮助我们更好地认识这个世界。

但是最近我读了一本书，有了新的看法，这本书叫《人人都在说谎》（Everybody Lies)。作者赛斯，是一名谷歌的数据分析师。赛斯在书里，列举了大量大数据带给我们的惊奇发现，很颠覆过往认知，值得一读。

恰逢五一假期，这回就不放书摘了，想简单和你聊聊，我看完这本书的感受。

祝开卷有知。

有知有行 雨白

合上书，我最深的体会是，在这个时代，观点不会随着数据的支撑变得强大，而是会变得越来越无力。

为什么这么说？我举个例子你就明白了。

这些年，有一个词非常流行，你可能听过，叫「消费降级」；还有另一个截然相反的词也非常热，叫「消费升级」。奇怪的是，这两个理论，每个都有很多数据支撑。

比方说，疫情之前我看过这么一份报道，某年的上半年，泡面、榨菜和低端白酒的销量大幅上涨，大家都耳熟能详的一个知名榨菜品牌，在这半年里净利润增长了 77%。那支持「消费降级」的一派，就会拿出全国各城市房地产市场近年来的价格走势图解释说，你看，房价太高，人要是想买房，必须得节衣缩食来攒钱，都已经到吃泡面榨菜的地步了。听起来好像有点道理，也很符合我们在生活中的观察。

可支持「消费升级」的一派，就不这么认为了。他们会说，你看，如果你仔细分析这几家企业的财报就会发现，他们销量上涨的关键词是产品升级。比如说方便面，销售额增幅最大的都是高档方便面，那些低档的干脆面销量可是下滑了 24%。所以说，这实际上反映了消费者的消费升级。

好像都挺有道理的，到底哪一派是对的？

他们说的都是对的，也都是错的。

之所以说他们说的都是对的，是因为今天的数据非常丰富，获取也非常容易。涂子沛老师在《数文明》里，就说过一句很经典的话，大数据会导致「人人皆有数，人人都有理」。一个人想要得出和其他人不一样的结论，总可以找到相应的数据来支撑自己。

如果是对经济乐观的人，给你的数据，当然全都维护消费升级；如果是一个对经济悲观的人，也会给你很多数据，让你相信消费降级才是对的。所以，要是单看他们给出的数据，消费确实升级了，消费也确实降级了。

为什么说他们说的也都是错的？这就这涉及到人常有的一类思维误区，叫做证实偏差。什么是证实偏差？就是遇到一个命题时，人们会倾向于寻找支持这个命题的证据，而忽略否定这个命题的证据。而大数据更是加重了我们的证实偏差倾向，所以无论是支持消费升级还是消费降级的人，他们都会忽视支持对方观点的数据。

你可能会说，是不是他们拿到的数据还不够多？如果他们能拿到更多数据，就能得出更靠谱的结论。事实上，科学家，包括数据科学家，也容易被证实偏差误导。

赛斯在书里就举了这么一个例子。曼彻斯特大学和印第安纳大学的计算机科学家，联合发表了一项研究，声称可以根据人们的推特（也就是美国的微博），来预测股票市场指数。

他们发明了一种算法，能根据人们每天发的内容，把所有的情绪进行编码，比如幸福、愤怒、沮丧等等。他们发现，如果有很多人在同一天表达「我感觉很平静」，那么六天后， 道琼斯工业平均指数 就很有可能会上涨。

这项研究一发表，很快就成立了一只对冲基金。结局你肯定已经猜到了，这只对冲基金一个月后就解散了。

这群数据科学家怎么会犯这么低级的错误呢？赛斯提出了一种解释，叫做「维度的诅咒」。大数据带给我们的一项诅咒就是，只要你测试的维度足够多，也就是变量足够多，你就很容易发现某两件事情之间存在强相关性。

就像这群数据科学家一样，他们相信能找到情绪和股票指数之间的关联，如果在过去，没有大数据工具，尝试过几种猜想，找不到相关性也就算了；但是现在的数据工具允许科学家不断测试几十种甚至上百种情绪和股票指数之间的关系，总有一种情绪会让他们发现，没错，就是它，这种情绪最能预测股票指数的起起落落。

但他们忽视了一点：这种强相关性，并不等同于因果关系。数据只能反映事实，但是无法给我们提供观点。数据可以向我们展示某两样东西存在强相关性，但是它不会告诉我们两者之间的因果关系。强相关性和因果关系之间，隔着一道看不见的鸿沟。而在绝大部分时间，我们容易把强相关性拧成因果关系，来解释这个世界。

大数据将这个困境展露无遗：真实世界远远比我们想象中的要复杂，草率地给出观点变得越来越危险 。罐装八宝粥销量下滑，是消费升级了，还是外卖发达了？电影票房上升，是因为经济形势不好，产生了所谓的「口红效应」，还是因为这两年院线建设越来越深入三四线城市？哪个是真的？

想要把任何一个真实世界的复杂问题抽象概括成一个答案，已经成了越来越艰难的任务。在过去，我们都想学牛顿或者爱因斯坦，竭尽全力把每个领域的知识抽象成几条定理，然后用它们来解释整个世界。

可到了今天，大数据给我们送了一份大礼： 就像「消费降级」和「消费升级」一样，哪怕每一派积累的数据再多，任何一种观点都不足以概括中国 14 亿人口的偌大市场。

搞懂了这点，就不难理解为什么我们在网上常常遇到「杠精」了。如果一个人总是试图以观点为接口和世界进行沟通协作，那么他很难意识到，自己观点体系里的哪一段字句会触碰到对方的禁忌，从而引起对方的反驳，彼此观点对观点，谁也说服不了谁。

什么才是和这个世界最好的沟通方式？在过去，我们觉得是观点。现在我有一个感受，越来越好的沟通工具是事实，以事实为接口，与世界进行信息交流与合作。观点从来都说服不了观点，但事实可以。

近几年网上有一个流行的词组，叫「不 judge」。Judge 是英文单词，意思是判断，「不 judge」的意思就是不要轻易给任何人事物下判断，不给观点，只讲事实。「不 judge」不代表一个人缺乏判断力，只是代表在未知全貌的情况下，不轻易做结论。

「不 judge」可能是这个时代最好的生存策略之一。提出「消费降级，经济不景气」，不如指出「某榨菜品牌的利润上涨了 77%」；说「产业升级，消费者追求品质」，不如给出「低档干脆面销量下滑 24%」的真实数据。我们能做的最大努力，是下极扎实的功夫，给出事实，摆出数据。如果不回到事实，总是想要抽象，那么就是让自己置身于巨大的风险当中。

最近有一个心得，那就是这个时代正在惩罚那些自以为有思想的人。在这个大数据时代，他们太容易找到能够支持自己的数据了。

想要做一个大数据时代的聪明人，或许，我们能做的最大努力，就是少谈观点，多摆事实，在数据面前保留一丝清明。

你怎么看待大数据？欢迎在想法区谈谈你的观点。

书籍：《人人都在说谎》  
作者：赛思·斯蒂芬斯-达维多维茨  
  
本文章所载信息仅供参考，不构成任何投资建议。如转载使用，请参考 [《文章转载声明》](https://youzhiyouxing.cn/agreements/ARTICLE_REPRINTED) 。

## 相关阅读

- [ 从给「财富自由」一个定义开始，走上《财富自由之路》](http://youzhiyouxing.cn/materials/1154?format=md)
- [《穷查理宝典》：理解可口可乐的五种思维方式](http://youzhiyouxing.cn/materials/1122?format=md)
- [《有钱人和你想的不一样》，有钱人是怎么想的？](http://youzhiyouxing.cn/materials/1116?format=md)


## Citation

> 「怎样做一个大数据时代的明白人？」，有知有行，有知有行，2021-05-05。
> http://youzhiyouxing.cn/materials/770

---

*来源: [有知有行](http://youzhiyouxing.cn) · [更多内容](http://youzhiyouxing.cn/llms.txt) · [完整索引](http://youzhiyouxing.cn/llms-full.txt)*
