结语:数据思维背后的三个基本信念

你好,我是悦创。
这一讲是数据思维课的最后一讲,讲点什么才能作为一门课的结语呢?想来想去,我决定讲点个人化的东西。我想讨论这样一个问题——数据思维背后的基本信念是什么?
为什么要讨论这个问题呢?我觉得,数据思维就像语文素养一样,是一个现代人的基本素养之一。发刊词里我就说过,数据思维是数据时代的通行证。
所有人应该都认同语文素养是现代人基本素养之一,你可以没有上过大学,但是你必须要识字写字,作为一个人,我们必须要理解他人,表达自己。
1. 理由一:世界是量的,而不是质的
我认为数据素养应该是现代人的基本素养之一的第一个理由是:这个世界是量的,而不是质的。
这句话听起来很绝对,但是我说了,我想表达的是个人观点,只要对你有所启发就好。
这里,我们从大哲学家柏拉图讲起。
柏拉图有一个重要的理论,就是把世界分成本质的世界和形成的世界。比如圆,数学上的圆就是本质的。但是在现实中,你见不到本质的圆,你见的都是形成的圆,比如有月亮、车轮这样的圆;也有窑洞、梅花、鹅卵石这样包含圆的元素的东西。
这就要求我们有观察能力,通过形成的世界去猜测本质的世界。但是怎么猜呢?只能通过量的方式去猜。这也好理解,怎么从本质到达本质呢?只能通过量这个途径来逼近本质。
比如说身高。你的身高到底是多少呢?这是一个本质性的问题。怎么知道答案呢?测量。测量一次肯定有误差,所以我测100次,求平均值,这个平均值就是我们的答案。
那一群人的身高呢?这就非常不同了。因为你把一个人群的身高平均值测得再准,也理解不了这个问题——高高低低的身高背后有什么规律呢?这个时候用平均值就接近不了本质,必须改用分布。只要一群人的数量足够多,身高的分布一定服从正态分布。
反过来,当你声称找到了一个事物的本质,要验证它,也要回到形成的世界,从量来证实这个本质在运作。
比如在相亲网站上我们会发现,男生的数量是足够多的,但是1米7的男生特别多,根本不是正态分布。是相亲的男生的身高与一般男生的身高有本质不同吗?是因为1米7的男生最难找到女朋友吗?当然不是。而是大量的不到1米7的男生都声称自己是1米7,所以造成了相亲网站偏离了正态分布。只有理解了这些是如何形成的,你才会对你发现的本质更有信心。
还有,量与质之间也是互相纠缠的。
一只狗,你能看出什么本质来呢?是对人的依赖性还是对主人的忠诚度呢?但是,不管你看到什么,你绝对看不到狗的社会性。看不到,不等于不存在。想看到狗的社会性,就要养6只或者6只以上的狗,才能看到这些狗形成了一个小社会。
因此,本质的世界只能存在于我们的头脑中,我们能触摸到的只有形成的世界,而触摸这个形成的世界的方式就是通过量。所以在这个意义上我说,这个世界是量的,不是质的。
2. 理由二:只有量的竞争才能达成共识
我认为数据素养应该是现代人的基本素养之一的第二个理由是,只有通过量的竞争才能让我们暂时达成共识。
世界是复杂的,对于一件事物,每个人都有自己的观点、看法和结论。如果只在这些地方讨论,结果只能是自说自话、互相不服。但量是确定的,自然能让大家心服口服。
举个例子:
小杨把老耿告上法庭,说老耿侵权。为什么呢?原来,小杨公司是生产卷尺的,是行业著名品牌。老耿公司也生产卷尺,尽管商标上差异很大,但是有些卷尺的外观特别像小杨公司的。所以小杨说老耿侵权,误导消费者。
为了证明相似的外观确实造成了混淆,小杨做了一个调查。被调查者是经常使用卷尺的木匠们。结果,有40%的木匠说错了,把老耿的卷尺说成是小杨的。
看起来证据确凿,但老耿说,那不一定。你调查的木匠都是业内人士,声称自己很资深,可以分辨出任何品牌的卷尺。因此,即使他不认识,也不好意思承认,于是就瞎猜。所以,他们出于维护面子才瞎说的,怎么能怪到我老耿的头上?
小杨说,那好,我再做一个调查。还是这些木匠,这次给他们看你们老耿公司没有外观侵权嫌疑的那个卷尺。这个卷尺他们也不认识,如果存在维护面子这个问题,说错的比例应该和刚才差不多。
结果怎么样呢?第二次调查说错的只有 20%。也就是说,40% 的人是因为两种因素说错的,一种是维护面子,另一种是被外观误导。现在,维护面子的因素被测量出来了,20%,占了一半,那另一半,也就是剩下的 20%,就是外观混淆的效果。
这个量一确定,老耿就没有话说了。
我们再看一个非常敏感的争论:
大家都承认,从事科学职业的女性远远比男性少。为什么会有这样的现象呢?有人说,这是男科学家群体歧视女性,设置了隐性的职业障碍,所以才导致女科学家少。怎么证实或者证伪这个问题呢?
华裔美国社会学家谢宇做了一个漂亮的工作。这里讲一下谢宇的思路:
假如有 100 个男生,物理专业毕业后,99 个都进入研究所工作。为什么会少一个呢?我们肯定不会认为他受到了歧视,而是认为他有个人原因。那么,我们也找 100 个女生,也都是物理专业毕业,结果发现,只有 50 个进入了研究所。这时候,看一下那 50 个干嘛去了。一看,49 个去结婚生孩子去了。你能说,这是因为男科学家歧视吗?当然就不能了。
因为 49 个女生选择去结婚生孩子,可能有社会的歧视,也可能是出于本人自愿,也有可能是社会的合理分工,到底是为什么,可以进一步的研究。但是说男科学家集体歧视女性,数据就不支持。这就是谢宇使用的“生命历程方法”。
聪明的你马上会问,这样的数据哪里有呢?谢宇的厉害之处就在这里,他通过高超的统计学技巧,用17个不同的美国全国调查结果建立了一个虚拟队列,从而解决了这个问题。
真实的数据和技术就不说了。这里给两个背景:第一,谢宇的研究结果发表之后,这方面的讨论基本上就终止了;第二,谢宇因为这个工作当选了美国院士。你说厉害不厉害?
总结一下,只有量的竞争才能让我们暂时达成共识,而观念的争论只会让我们自说自话,相互无法认同。
3. 理由三:定量是唯一可信赖的方法
我认为数据素养应该是现代人的基本素养之一的第三个理由是,具体的定量方法是不完美的,但却是我们唯一可以信赖的方法。
用量来理解本质,是一个抽象的说法。实际生活中,你要理解一个事物,总要使用一个具体的定量方法。而具体的定量方法,是很容易犯错误的。这里的坑太多了,我只说一个最主要的,也是很多人最容易忽略的,就是**任何量的结论都是有时空限定的**。
比如自杀率,大部分社会都是男性自杀率比女性高,但是这个结论不适用 1995 年到 1999 年的中国农村地区。有学者推算,那个时候,农村年轻女性的自杀率比农村年轻男性高 66%。这个现象吸引了很多社会学者研究,也被很多人指出来讨论,所以这个结论被很多人知晓。
但是近年的研究发现,我国农村女性的自杀率已经连续20年下降,女性自杀率回到了低于男性自杀率的一般规律。但是,由于农村女性比男性自杀率高的研究被广为宣传,所以到现在仍然有很多人保留了这个印象。
不过,虽然具体的方法不完美,但是我们没有可以选择的其他道路,我们能做的就是不断改进具体的方法。
比如,有些人攻击双盲实验,认为这个方法被神化了。你看,昨天还说这个药有效,今天马上就被新实验打脸了。这样的事情太多了。
但是,你是觉得研究人员不知道双盲实验的局限吗?其实,现在最高的证据并不是一次单一的双盲实验,而是荟萃分析,是整合了所有的证据之后的结果。而且,即使是对双盲实验本身,学界认为最好的方式也是多中心、大样本、双盲随机对照实验。
多中心,是指不同的国家,不同的种族,不同的文化等,这就是在探测结论的适用范围到底有多大。大样本,就是在缓解使用小样本推及总体时会产生的代表性不充分的问题。
此外,大数据、人工智能、深度学习等新技术的广泛应用,对很多以前难以解决的问题都有了很好的解决方案。我们要做的是与时俱进,不断提高认知,升级数据思维。
最后再强调一下,这仅仅是我个人的看法,不代表真理。
我想说的是,我们这些相信数据思维背后基本理念的人,不是把量当成神圣的东西,不是统计至上主义者,不是科学教徒,我们是胸怀理想但又面对现实的一群人。
最后,祝贺你走完了数据思维这门课的全程。我们各自安好,江湖再见!
划重点:
我认为数据思维是现代人的基本素养之一,地位与语文素养一样。理由有三个:
第一:这个世界是量的,只有通过量才可能接近质;
第二:只有通过量的竞争,才能达成质的暂时共识;
第三:虽然定量的方法不完美,但我们只能依赖它。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

更新日志
1b331-于a6a42-于2d5b6-于2699f-于c372f-于13059-于03cee-于70353-于ae8a4-于9bfdc-于4d098-于1c35a-于cbb3a-于76989-于86c50-于027da-于