02-数据思维的三个常见误解
你好,我是悦创。
这一讲是课程的第一讲,我们要处理一个最重要的问题——数据思维究竟是什么?
1. 对数据思维的三个误解
我先问你一个问题:这里有一组数字,1、2、3、4、5,它们的平均值是多少啊?你一定脱口而出,3。
回答正确。问题是,这是数据思维吗?
答案是,不是。这不是思维,而是人类先天携带的数字感。
拜自然进化的福气,我们一出生大脑里就有了数字感。不需要谁教就知道,西瓜比芝麻大,不能捡了芝麻丢了西瓜;知道买一送一比什么都不送好;知道一个酒店有 100 间房,要隔离 150 人,就肯定有些房间不止会住一个人。
虽然先天的数字感是获得数据思维的重要基础,但是它有时候也不靠谱,会把我们带到沟里。 比如在必胜客,很多人就觉得,两个 6 英寸的披萨和一个 12 英寸的披萨差不多大。但其实,你可以算一下,大小差远了。
既然先天的数字感不是数据思维,是不是后天学习到的本事才是呢?我们把任务升级一下,计算中国城市居民的平均收入。这可是十亿条规模的数据量,心算手算都不行了,必须动用数据处理工具。会用数学工具,这是不是数据思维呢?
抱歉,这是技能,也不是思维。
你一定会问,既然技能不算,那是不是我知道用求平均值这个方法能算出平均收入这件事是数据思维呢?很抱歉,这还不是思维,而是知识。
这也不是,那么不是,到底什么是数据思维呢?
要我说,数据思维是使用数据来提出问题和解决问题的能力。
计算中国城市居民的平均收入,这是一个问题定义非常明确的任务,你只需要调动自己的知识和技能去完成这个任务就好。而数据思维,是针对问题的。设想一下,如果我们面临的任务并不明确,不是直接让你计算平均收入,而是一个大领导,就在电梯里问你:“咱们国家去年城市居民的收入状况什么样啊?”
这是一个具体的问题,而且在电梯里,你肯定不能长篇大论,最好的方法就是用一个指标明晰地回答问题。
一个有数据思维的人就应该这么思考:
平均值反映的是一组数字的集中情况。但是收入这件事,各人之间的差别太大了。有人年收入过一亿,有人年收入还不到一万。过亿的人少,不到一万的人多,所以用平均值就不能反映全貌。如果要反映全貌,中位数就更合适。中位数是指一组数字的中间位置。比如中位数是 2 万元,那就意味着中国城市居民有一半年收入比 2 万高,有一半比2万低。所以,如果你能脱口而出“用中位数表示”,那就是一个特别有数据思维的回答。
这才是数据思维,使用数据来提出问题和解决问题。
2. 高水平的数据思维什么样?
下面讲一个真实的故事,看看高水平的数据思维是什么样子的。
美国佛罗里达州的一个县有一家报纸,名字叫《太阳哨兵报》,发行量不足 23 万份。报社里有个小记者,叫萨莉·克斯汀。我们就叫她萨莉吧 [1] 。
在 2011 年的时候,萨莉注意到一个新闻——当地一名退休警察超速行驶,造成了恶性交通事故。萨莉查阅了近 10 年的记录,发现这样的事情不少。于是她意识到,警察超速行驶这件事,很可能是一个非常值得关注的社会问题。但是,怎么证实这件事呢?
采访?不可能。就算有些警察愿意告诉你一些情况,那也只是个例,不是事情的全貌。
抓现行?也不可能。萨莉真的尝试过跟踪警车,抱着测速雷达在高速公路旁边蹲守,一发现有车辆超速,立刻驱车追赶。但很快发现,这根本行不通。第一,超速的不一定是警车,追了半天,发现不是警车就白追了。第二,就算运气好,抓到了警车,你也无权截停,仅仅有影像证据,并不充分,也不能服人。
萨莉最后想到了解决办法——申请数据公开。因为警车是公务用车,根据美国法律,公民有权了解其使用状态。因此,她获得了 110 万条数据。
这些数据是当地警车通过不同高速公路收费站的原始记录。这就好办了。警车通过收费站都有时间记录,这段路程的行驶时间就知道了。而收费站之间的距离是已知的,两个数据一除,速度就出来了。有没有超速,不就很清楚了吗?
在专业数据分析人员的帮助下,萨莉用了 3 个月的时间处理这些数据。得到了什么结果呢?
她发现,在 13 个月里,当地 3900 辆警车一共有 5100 宗超速事件,也就是说,警车超速天天发生。而且时间记录表明,绝大部分超速都发生在上下班时间和上下班途中,这说明警察超速并不是为了执行公务。
2012年2月,萨莉发表了系列报道。在大量数据和调查访谈的基础上,萨莉得出结论,因为工作需要和警察的特权意识,开快车成了警察群体的普遍习惯,即使下班后身着便服,车速也没能降下来。
报道一见报,舆论哗然。一些坐实违纪的警察陆续受到处理。48 名州高速公路巡警被处以警告或者被勒令纪律反省。44 名地方刑警被剥夺开车上下班的权利。迈阿密市有 38 名警察被处理,其中 1 名开除,10 名停发工资。
萨莉也因为这个系列报道,获得了 2013 年度的普利策新闻奖。这是美国新闻传播界最重要的奖项。
3. 三个重要启发
这个故事告诉我们什么呢?
第一,数据思维不同于数据知识和数据技能,数据思维是用数据提出问题和找到解决问题的办法。
萨莉记者的数据技能是不够的,我猜她肯定不会 Python,不会 SAS,不会清洗数据,也不会校验数据。否则,110 万条数据并不是一个了不得的规模,一般的数据分析师处理这类简单任务也都是小 case,但萨莉自己处理不了。
但是,萨莉建立了数据分析的框架,知道怎么利用数据产生她需要的结果,并且这些结果能完美地契合她要讲述的新闻故事。这就是数据思维。
第二,数据思维发挥作用,需要与其他能力组合。
萨莉的新闻敏感度、问题意识、行动能力,都不能归结为数据思维,这些都是与数据思维不同的能力和品质。它们与数据思维组合起来,才能完成一次高水平的新闻报道。
这就是说,数据思维不是包打天下的大力丸,好像有了这个思维就可以自动站上浪潮之巅。但是,高水平的数据思维可以与其他能力互补和协同,形成 1+1>2 的整体效应,大幅提高思考问题和解决问题的能力。
第三,数据思维是对数据知识和数据技能的认知。
这句话有点费解,我们慢慢梳理一下。一开始说了,数据思维是使用数据来提出问题和解决问题的能力,它与数据知识和数据技能不是一回事。但是,聪明的你一定会问:思考和解决问题,肯定又离不开知识和技能,这三者之间是什么关系呢?
这是一个好问题。答案是,我们对掌握的数据知识和技能形成一些认知,这些认知就是数据思维,然后我们以这些认知为工具来思考问题、解决问题。
举个例子,曾经有一位公司董事长在与协作公司的高层会议上热情澎湃地发言说:“我们双方是强强联合,不仅要做到1加1,更要做到1乘1。”
欢迎关注我公众号:AI悦创,有更多更好玩的等你发现!
公众号:AI悦创【二维码】
AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Linux、Web全栈」,全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh
- 0
- 0
- 0
- 0
- 0
- 0