04-推理:怎么发现数据隐藏的信息?

你好,我是悦创。
上一讲,我们学习了如何寻找背景来明确数据的意义。但其实,数据不是孤立的,它是一个信号,一个线索,除了它本身之外,还隐藏着很多信息。发现已知数据背后隐藏的信息,是一个重要的能力,也是数据思维的一部分。
因此这一讲,我们就学习一下如何让数据说话,发掘数据背后隐藏的信息。
注意,这一讲的焦点是对数据本身含义的挖掘,而不是以此为线索,一路追击,发现更多的数据。

比如:
- 从一个街头犯罪一路追踪,最后发现他背后有一个保护伞,就不是这一讲的任务。
- 这一讲有点像福尔摩斯的推理,是从华生身上的特征推论他去过阿富汗。
1. 挖掘隐藏信息的经典案例
我们先看一个例子,欣赏一下有了数据思维,能通过一个数据做出怎样的思考。
这是一个真实的故事:第二次世界大战期间,盟军需要知道德国人一个月生产多少辆坦克。当时,德国人每生产一辆坦克,就在坦克上刻一个序列号。现在我们假设,德国人每个月生产的坦克序列号是从 1 到 N。N 就是一个月总的产量。因为我们不知道是多少,所以就用 N 来表示。我们的任务就是估计这个 N 到底有多大。
这里只讨论最简单的情况。某一个月内,盟军只发现了一辆德国坦克,序列号为 60。如何估计这个月德国人的坦克产量呢?
你是不是会说,这怎么可能?就一个数据,能用什么方法?只能瞎猜。
好吧。让你看看统计学家能用这一个数据推理出什么结果——
首先,凭什么一下就缴获了序列号最大的那一辆呢?这个概率太小了,所以 N 的值起码大于 60。
其次,假设这个月生产的任何一辆坦克都有可能被缴获,我们就要公平地对待每一个样本。用统计学的术语,就叫“样本的无偏性”,就是说对数据没有偏心眼。而最符合这个无偏性条件的,就是把缴获的这辆坦克的序列号看成中间的那个。既然 60 是中间点,那生产总量就可以估计为 120 辆。
你看,一个数据也能分析出很多信息。
这其实是一个真实的故事,所以我就告诉你真实的结局。当时,盟军为了了解这个信息,采用了两种方法,一种是派间谍,另一种是请统计学家分析。间谍的报告是 1000 辆以上,而统计学家的结论也就是几百辆。
谁正确呢?
二战结束之后,盟军对德国的坦克生产记录进行检查,得到了准确的数据。1942 年 8 月,情报估计的德军坦克生产量是 1550 辆,统计学家估计的是 327 辆。而德国真实的生产记录是多少呢?342 辆。
统计学家完胜情报人员!
现在我们知道了,数据隐藏的信息特别多,只要善于发现,就能找到很多有价值的信息。可问题是怎么做,用什么方法才能挖掘出数据背后的隐藏信息呢?这里介绍三个常用的方法。
2. 方法一:数学推断
先利用数学知识做出假设,然后再进行推断。
刚才估计德军坦克的故事,就是一个典型的案例。
不过要提醒你的是,当任务很容易定位成数学任务的时候,就像估计德军坦克产量这样,我们会很自然地调动已知的数学知识去解决,高手和低手之间的差别就在数学知识的掌握和使用上。但是,当任务看起来跟数学没有关联的时候,我们常常会忘记调用数学知识。
还是继续上一讲离婚率这个话题。当媒体报告,离婚对数与结婚对数的比值这个指标今年又上升了。你觉得这个消息值得重视吗?
这时候,你就可以反过来把媒体的思路拆解,先看看它的假设是什么,然后再判断这个消息靠不靠谱。
从离婚率的定义上看,是离婚对数与结婚对数的比值越来越大,但是,有三种可能会导致这个变化:
- 一种是主要原因在分子,也就是离婚的越来越多;
- 另一种是主要原因在分母,也就是结婚的越来越少;
- 第三种是相对情况,比如分子分母同步变化,但是分子的变化幅度更大。
所以,要真正读懂离婚率,我们要找到主要因素。
先看分子——当年的离婚对数。
但是,谁能离婚呢?必须要先结婚才能离婚吧?所以这么些年下来,已婚的人数会逐渐累积增多。已婚人数多了,离婚的自然也就会多,即使离婚率没有变化,离婚对数也会增长。所以,分子逐渐变大是正常的,关键在于变大的速度是不是加快了。
再看分母——当年的结婚对数。
这个数字与进入婚龄的人口数量相关,也就是受到 20 年前新生人口数的影响。20 年前新生人口数越多,现在结婚的自然就越多。
查阅近 20 年的数据,我们看到的是:离婚对数在 20 年内慢慢上升,坡度很缓。而结婚对数的曲线是一个大鼓包,20 年间,前 14 年在快速上升,在 2013 年达到高峰,随后快速下降,到 2019 年回到了 2001 年的规模。
这样看来,近年来的离婚对数与结婚对数比值的上升,主要是结婚人数下降导致的。如果今年这个数据上升,隐含的信息不是婚姻幸福的人越来越少了,越来越多的新婚夫妇都离婚了,而是结婚人数在不断下降。
3. 方法二:逻辑推理
具体的推理过程与各个领域的规则和限制条件相关。
比如斗地主,这是一种扑克游戏,三个人打一副牌,分成两边对战。如果你手里有 4 个 5,没有 4,现在上家出了 2 个 4,那么,牌面上的 2 个 4 还隐藏了什么信息呢?答案是,下家还有 2 个 4。
推理过程是这样的:
首先,上家不可能有 4 个 4。因为 4 个 4 是一个炸弹,价值很高,他不会傻到不要炸弹而把 4 个 4 拆开。其次,上家会不会有 3 个 4 呢?如果他有 3 个 4,还要只出 2 个 4,必定是手里有顺子,比如 45678 之类的。但是,你手里有 4 个 5,所以上家不可能有顺子。结论,另外 2 个 4 在下家。
这里没有复杂的数学,但要充分理解游戏规则,把这些规则作为限制条件来进行推理。
这个推理训练要经常做,对数据思维的养成很有用。这里介绍一款个人玩儿的小游戏——数独。
数独是源自 18 世纪瑞士的一种数学游戏,玩家需要根据 9×9 盘面上的已知数字,推理出剩余空格里的数字,并满足每一行、每一列、每一个小九宫格内均含有 1-9,不重复。这种游戏只需要逻辑思维能力,与数字运算无关。虽然玩法简单,但又千变万化,是个锻炼推理能力的好方法。
围棋、象棋、军棋、国际象棋、五子棋、斗兽棋、井子棋(变化太少,没必要)、数独等等,都可以训练自己的逻辑推理能力。
4. 方法三:切换视角
先举一个简单的例子:
- 一场瘟疫死了 2 万人。
- 有人说,不对,这是“一场瘟疫导致一个人死亡”这件事,发生了 2 万次。
- 这就是典型的切换视角。
再说一个比较复杂的,有一个故事是这样的:
- 我们的课程编辑悦创找到小杨,问小杨,如果给你 1 万元,让你一次吃 6 个巨无霸汉堡包,你吃不吃?小杨想了想,1 万元挺多的,虽然 6 个汉堡一次吃完很难受,但是很值,所以我吃。
- 悦创接着问小杨,我不给你 1 万元了,给你 9999 元,你吃不吃?小杨想,9999 元与 1 万元相比,就差 1 块钱,差别不大,吃!
- 悦创接着再问小杨,我不给你 9999 元了,给你 9998 元,你吃不吃?小杨想,9998 元与 9999 元相比,还是只差1块钱,差别不大,吃!
于是悦创就做出了推理——要是这么一直问下去,我只给你 1 块钱,你就会去吃。
问题来了,悦创的推理正确吗?
如果不正确,问题在哪里呢?
凭直觉,你应该也会觉得不正确,但问题在于,你能说清楚哪里不正确吗?
实际上,悦创的游戏启动了两个心理账户:
- 一个是可变的锚定点,每次都只比上一次少 1 块钱,这个差别不大;
- 另一个是不变的锚定点,就是 1 万元那个起点。悦创的每一个提议,钱数与可变锚定点确实变化不大,只比上一次少一块钱,但是与不变锚定点的距离越来越大。大到一定的程度,突破了小杨的心理底线,这个游戏就玩不下去了。
这个故事用一个关系,也就是新报价与前一个报价的对比来看,说明报价的差异很小,证明只给 1 块钱也会答应。但是用另一个关系,也就是新报价与第一次报价的关系来看,差异就不是很小,而是很大,因此推理说 1 块钱也会答应是荒谬的。
通过不同的视角观察数据,数据就会在不同的关系下发出不同的隐含信息。
前面四讲,我们关注的焦点都在数据上。下一讲我们换个方向,看看对于同一个数据,为什么不同的人会有截然不同的感知。
我是 AI悦创,我们下一讲见。
划重点
单一的一个数据包含的信息也不是那么少,我们需要把隐含的信息挖掘出来。教你三个方法——
数学推断:先利用数学知识做出假设,然后进行推断。
逻辑推理:从各个领域的规则和限制条件出发,进行合理化推测。
切换视角:在不同的视角、关系下观察数据,数据就会发出不同的隐含信息。
之前看新闻,有一条说道:2019 年,李迅雷说 —— 国内有 10 亿人还没有坐过飞机。
切换视角,也可以表示为:截止 2019 年,中国有 4 亿多人乘坐飞机。
同样的数据侧重点就不同,含义也不同。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

更新日志
e4647-于63313-于61683-于d1f67-于787ea-于52753-于45731-于10ac6-于0264d-于da492-于82038-于3d761-于