19-可视化:如何塑造受众的感觉?

你好,我是悦创。
对数据进行处理之后,我们会得到很多的数据结果。但这些结果都是用方程、表格之类的东西表达的,非常抽象,很难理解。怎么能让受众对这些数据结果有感觉呢?
这个时候,就需要一个技能——可视化。所以这一讲,我们就说说操纵数据的另一个主题,用数据可视化塑造受众的感受。
- 本节可视化课程重点关注认知,而且是音频课程,所以暂时不解决如何阅读、制作可视化作品的问题。
- 因为图片版权限制,仅提供部分有版权的图片,其他内容可以在网上自行搜索了解。
1. 数据可视化必须基于数字
在讨论数据可视化之前,我们得先解决一个干扰。
网上有一组图,每张图都是用一些小圆圈和一条线组成,合起来表示一个学科。单看图本身不知怎么理解,但一看见图的名字,你就会心一笑,不由得给作者点赞。
比如,有一张图的内容是一条直线穿过两个小圆圈,图的名字是《数学》。想一下就能明白了,圆圈代表样本,直线代表理论,有两个样本就能建立精确的理论,就像过两点有且只有一条直线那样。这就理解了作者的意思,数学是一种高度精确的学科。

另一张图里,小圆圈到处都是,一条线从左下延伸到右上,图的名字是《经济学》。意思就是,经济学的理论只能大致反映样本的趋势,但是误差太大。

还有一张图,只有一个小圆圈和穿过这个小圆圈的线,图的名字是《新闻学》。意思是说,只有一个样本,也就是只有一个新闻事件,新闻学就能建立一个理论进行解释。这是作者嘲笑新闻学解释世界非常任意。
还有更多的图,时间有限不能展开了。作者抓住各个学科处理理论和现实之间关系的精髓,借用数学符号幽默地表达了他对各个学科的看法。但是,这是基于观察的言论,而不是基于数据内在的模式。数据可视化必须是基于数据的。这是关于数据可视化,我们要知道的第一件事。
2. 信息图是一种间接方式
我还见过一张很好的作品,解释高速公路上为什么没有事故也会堵车。

图的主体部分是一条隆起的高速公路,从右下到左上,右下的一辆辆汽车就像爬山那样拥堵着,整体视觉效果很强烈。接下来,图中从左上到右下标着号码1、2、3、4,这引导着观察者的注意力。依次读标号后面的文字,你会知道一连串事件:第一辆车突然变道,导致后面的车从时速100公里下降到80公里;后面的车为了保持安全距离,依次下降车速,最后导致停车拥堵。
这张图是不是基于数据的?是。我们在上一讲还介绍了相关的研究成果,那些成果都是基于数据的。但是,这是一种间接的方式。我们想告知受众一些信息,只是用了可视化的方式来让受众易于理解。这种方式有个单独的名字,叫“信息图”。
信息图虽然也属于数据可视化,但不是最直接的方式,也就是说,不是以数据驱动的方式展示的。这是关于数据可视化,我们要知道的第二件事。
3. 数据驱动的可视化
听到这里,你肯定自然会问,基于观察的言论不是可视化,信息图也不是直接的可视化,那数据驱动的可视化到底是什么样子呢?
谷歌曾经推出过一款社交应用——Google+,类似于我们的微博吧。如果你是 Google+ 的用户,就会得到一张图,形象地展示你的信任圈。
这张图是怎么生成呢?你居于中心,是一个蓝色的点;离你最近的一圈是绿色的,是相互关注的人;向外第二圈是黄色的,是你关注了对方,但是对方没有关注你;最外层第三圈是红色的,是对方单方面关注了你。这样,每个人的社交模式就形象地表示出来了。


比如一位著名的音乐制作人,三种颜色的深浅度差不多,可以说是社交明星。相互关注的人多,他单方面关注的其他人也多,单方面被别人关注的也很多。
另一位是歌手“小甜甜”布莱尼,她的特点是,黄色和红色密集,而绿色星星点点。这说明小甜甜是单方面关注别人多,单方面被关注的也多,但是相互关注的很少。
最好玩儿的是扎克伯格的账号,只有一种颜色——红色,都是单方面关注小扎的。原因很简单,小扎是做Facebook的,怎么可能在对手的社交平台上活跃呢?
通过这个案例,我们就理解什么是数据驱动的可视化了。那就是,按照事先确定的规则,挖掘出数据中的模式,并把这个模式展示出来,让受众看见并理解。看见并理解,是数据可视化的最高目的。
比如,把大大小小的地震按照震中的位置放在中国地图上,我们马上就看见并理解了中国境内地震带的分布。把一些作家、名人的睡眠时间标注在表盘上,我们马上看见并理解了大部分作家还是日出而作日落而息,熬夜的并不多;但是,有几位睡眠时间很少、有几位是分段睡觉的,这些特殊的模式会迅速引起受众的注意。
4. 如何进行数据可视化?
理解数据可视化的意思很简单,难点在于怎么做。对于同一个要传达的信息,总会有几个不同的方案可以选择。怎么选择最合适的一个呢?
标准就是一个,选择那种既高效又美观的方案。高效,指传达信息的效率高,能让受众迅速抓住重点,理解你要传达的信息。美观,是展示的方式看起来让人愉悦,有美的感受。
我举一个经典的例子。
这是一组显示1854年4月到1855年3月这一年的战争期间非战斗死亡和战斗死亡的总量以及比例的图片。不过,作者没有用常规的一对一对的柱子,而是用了一个圆盘,像一个在旋转的大风车的叶片,不过叶片有大有小。更令人印象深刻的是,随着战争的延续,表示非战斗死亡的红色部分,面积远远大于同时期表示战斗死亡的蓝色部分。
这有什么意义呢?
战争的决策者都懂,战斗死亡是战争双方对抗的结果,不光取决于自己一方。但是,非战斗死亡不是这样,它只取决于自己。现在非战斗死亡占的比例这么大,相当于自己的战争资源都白白消耗了。于是,决策者被说服了,他们接受了作者的意见,同意“缺乏有效护理是导致非战斗死亡的主要原因”,马上派人去前线考察,随后开始建立护理制度。
这就是现代医学护理的源头。这个可视化作品的作者就是弗洛伦斯·南丁格尔。为了纪念她,每年的国际护士节设在5月12日,这一天是南丁格尔的生日。
南丁格尔不仅是一名护士,也是一名统计学家。刚才那张圆形图,是最早的数据可视化作品之一,还被后人起了一个名字,叫“玫瑰图”。可见这个作品不但说服力强,而且很美观。

不过,事情的另一面是,选择就会有偏差,偏差就可能会误导受众。
比如,有一幅图是奥巴马竞选团队制作的,显示在布什政府的第二任期内失业率逐渐增高,而奥巴马政府的第一任期内失业率逐渐减少。这些表示失业率的柱子放在一起,高低起伏的形状就像一条比基尼三角裤。这个视觉形象是作者专门用来羞辱布什政府的,意思是共和党不行,要大家选择奥巴马代表的民主党。
作品相当不错,既高效又美观。但是,为什么只呈现8年时间呢?因为拉长时间就可以看到,布什的第一任期经济表现也是很好的。但作者显然不关心真相,只关心效果。

5. 数据可视化是一个探索工具
最后我想说的是,数据可视化不仅是一个传达信息的媒介,更是一个探索的工具。通过可视化,可以帮助我们发现存在于数据之中的原本很难发现的东西。
一个经典的例子就是斯诺医生在1854年的工作。
当时,伦敦霍乱肆虐。注意,那还是1854年,科学上还不知道霍乱是怎么传播的。但是,斯诺把水井和死亡病例在地图上标注出来,发现了水源和疾病之间的相关关系。然后,斯诺向伦敦当局报告了自己的发现。伦敦当局半信半疑,但人命关天,就把带来死亡最多的那个水井封掉了。结果,死亡病例随之下降。大家这才慢慢接受了斯诺的理论。
另一个好例子,是对美国参议员投票模式的可视化。
研究者制定了一个规则,如果两个参议员立法投票有60%的一致性,就在他们之间连一条线。立法投票的一致性是指,你投赞成票,我也投赞成票;你投反对票,我也投反对票。这样一个简单的规则,却让我们发现了其他统计手段不能发现的模式。什么模式呢?
投票明确地显示了两大阵营,就是大家按党派立场投票,民主党支持民主党,共和党支持共和党。这一点我们都能想到。不过在这之外,还有一个重要信息——民主党之间的连线密集到黑压压一团;而共和党那个区域,颜色要浅得多。这就说明,民主党比共和党更团结。
不知道你看过著名美剧《纸牌屋》没有,这个剧就是反映美国政治的,里面的男主角刚一出场的身份就是党鞭。党鞭是一个党的纪律主管,它的职责之一就是确保自己一方的参议员按照政党的立场行事。这个党鞭被安排成了哪个党的呢?答案是,民主党。看来,这是有现实依据的。
下一讲我们反过来,看看有哪些坑要避开,不让自己上别人操纵数据的当。
我是悦创,我们下一讲再见。
划重点:
数据可视化是基于数据的,由数据驱动生成的图像,帮助受众看见并理解数据当中隐含的信息。
好的数据可视化作品要兼顾高效和美观。传达信息快速有力,过程又充满愉悦感和美感。
数据可视化是一个重要的探索工具,能让我们发现其他手段难以发现的新信息。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

更新日志
2d5b6-于4c88e-于b03c8-于168b1-于751c4-于06941-于2699f-于c372f-于13059-于03cee-于70353-于ae8a4-于9bfdc-于4d098-于1c35a-于cbb3a-于76989-于86c50-于027da-于