13-大数据:到底有什么不一样?

你好,我是悦创。
通过前几讲,你应该发现了,收集数据的方法很多,而且各有侧重。
要是测量对象之间差异不大,同质性比较高,比如电子,就可以随便找。要是对象内部差异很大,又不能全部测量,就要抽样,用样本来推断总体。如果想了解人的内部状态,就必须用问卷。如果自变量和无关变量都可以控制得非常好,实验法就特别好使,对解释因果关系特别有用。
经过这么一推演,人类关于收集数据的几百年的经验,你就都掌握了。
1. 大数据对传统的冲击
这一切虽然都没有改变,但是村里来了一个陌生人。这个陌生人就是,大数据。为什么是陌生人呢?因为大数据的出现,冲击了上面那段人类沉淀了几百年的经验。
举个例子你感受一下:
某所大学每年都会有 1 到 2 名同学自杀。校方需要及早发现有问题苗头的同学,及时重点关注,必要时采取干预措施。但问题是,怎么找到需要重点关注的同学呢?
传统的方法无外乎两种:
一种是利用行政系统。
学校布置任务给各学院,各学院再布置给各系、各研究所,各系、各研究所再布置给班级辅导员,班级辅导员再布置给班干部。
但是,因为师生们缺乏足够的心理学训练,所以这种方式只能得到大量的假警报。一方面,把很多正常的情绪波动放大到需要重点关注的地步,不过激就担心会有责任。另一方面,很多真正有抑郁倾向的同学又不会被认为有问题。
另一种方式更高级一点,就是建立预警系统。
预警系统就是搞一个复杂的指标体系,拉一个大名单。这些同学可能有问题,被称为“预警对象”。然后对个人状态、事件进行监测,估计他们某个状态和经历的某些事件,比如考试不及格、失恋等会导致自杀的概率。如果概率比较大,系统就发出预警,指令相关老师去做工作。
这种方式听起来很美好,但其实很难实施。以什么标准划定一些人而不是另一些人进入这个名单呢?个人的状态靠什么监控呢?进入名单的同学会怎么想?会不会被歧视呢?
你发现没有,传统方法的效果好像都不太好。
- 问卷吧?那些抑郁的同学肯定不会说实话;
- 抽样或者实验吧?也没办法帮我们找到需要提前干预的同学。怎么办呢?
用大数据。
有了大数据思维就可以这样做:潜在自杀者的重要特征就是没有朋友。如果一位同学长时间不与人沟通,那他就需要重点关注。抓住这个关键特征,问题就转化成:如何找到这些孤独的同学?
这所学校找到了一个办法——观察一个同学的饭卡刷卡时间与同班同学的饭卡刷卡时间是不是先后出现。关系好的同学一起吃饭,他们的饭卡刷卡时间会挨在一起。如果是一位正常的同学,他在一个月内一定有很多次与同班同学的刷卡记录紧挨着。这个次数除以吃饭的总次数,就是这位同学与同班同学一起吃饭的概率。如果这个概率很低,那他就很可能是一位孤独者。(不是同班也支持,直接看一起出现的频率。)
你看,这个做事的方式是不是就不一样了?
2. 大数据的优势
从这个案例里,我们可以知道大数据的什么特点呢?至少有这么几个优势:
优势一:海量性
数据量大,就可以发现小数据很难发现的问题。孤独者在大学生里是很少的,但由于数据量大,稀有的事件也足够多,因此也能被发现。
优势二:持续性
饭卡的数据是连续不断的,一直源源不断地积累,就能让我们观察到学生行为随时间的变化。这也是传统的数据收集方法很难做到的。
通过上面的案例我们就能知道,如果一个同学从某月某日开始,吃饭的同伴行为和刚开学时不一样了,从一个正常的同学变成了一个孤独的同学,那这时候就要发出警报,请辅导员看看,他是因为失恋了想减肥于是不去食堂吃饭了,还是真的抑郁了。
优势三:不反应性
反应性是指,如果一个人知道有人在研究他或者有人在监督他,他就会做出改变。而用大数据,这个问题就基本不存在。因为同学压根就不知道学校会用饭卡数据观察自己,也就不会改变自己的行为。
再举一个例子。同样是使用学生使用饭卡的数据,另一家大学的用法就不同:
这家大学筛选出在校园食堂一个月吃 60 顿以上的饭,并且消费金额在 420 元以内的同学。系统自动把这些同学列为贫困生,不需要他们主动申请,就悄悄地把补助金充到他们的饭卡里。校方认为,这么做比较人性化,照顾了贫困生的尊严。
大数据就在那里,不管你有什么创意,大数据都是你的支持者。通过上面两个例子,希望你能感受到大数据这个陌生人做事的不同风格。
3. 使用大数据时要避开的坑
当然,大数据虽好,也有自己的问题,下面我们就说几个要着重注意的点。
第一:大数据里的数据,绝大部分都不是为了我们的目的收集的,而是在各个行业的业务活动中自动产生的。因此,如果想利用这些数据,就必须理解这些数据是怎么产生的,搞清楚这些数据的精确含义。
比如,一组命名为“客户”的数据,具体含义是什么呢?在业务系统中,可能是和企业有过各种联系的人;而在财务系统中,可能是实际与企业进行过交易的人。
更重要的是,你要认识到,大数据系统中的行为很多都不是自动出现的,而是在系统设计的目标下出现的。
举个最简单的例子:有一家全球著名的社交媒体,如果你统计就会发现,其中很多用户的朋友数量都是 20 个。难道用户都喜欢刚刚好交 20 个朋友吗?其实,这是这家社交媒体系统 PUSH 的结果。如果你的朋友数量不到 20 个,系统就鼓励你加更多的朋友;一旦你达到了 20 个朋友,系统就不 PUSH 你了。——这就是算法干扰(算法干预)。「用户看到的世界,其实是算法塑造出来的,而不是自然产生的现象。」(这句话已经揭示的坑:你以为是真的,其实是算法带来的结果,失去研究、分析的真实性。例如:研究社会上每个人在社交网络上的平均朋友数量,这样的研究就会出现问题。)
Facebook(脸书)最典型、最接近

- Facebook 会持续 PUSH “People You May Know(你可能认识的人)”
- 对好友数量较低的用户,算法会更频繁地推荐、促使你添加好友
- 让你多多和好友在平台沟通,增加用户粘性。你没有朋友,肯定不会经常逛。
- 一个用户如果没有足够的社交连接,他的留存率、使用时长极低,很容易流失。
- 当好友量达到某个“满意区间”(如 20~50),推荐压力会明显减弱
- 这是 Meta 的公开运营策略之一:提高新用户的社交图谱密度
虽然 FB 官方不会公开“20”这个具体阈值,但:
👉 “低好友量强推、高好友量减推” 是其实际逻辑。
👉 而“好友数在 20 处出现统计峰值”正是许多算法教学文档里的经典示例。
例子本质上是:
算法塑造行为 → 行为反过来看似“自然” → 但其实是被系统引导过的。
也就是说:
- 用户不是“喜欢 20 个好友”
- 而是因为 算法的 stop condition(停止推荐阈值)刚好设在了 20 左右
结果就会出现:
- 大量用户在统计图上好友数卡在 “20”
- 看起来像“自然规律”
- 实际是“算法设计的外部性”。
这就是你说的:
算法干扰(Algorithmic Intervention)
算法把用户推到某个行为模式里,让看似自然的事情变得不自然。


掌控言论的平台,掌控背后就是:各大企业交付资金,去控制热搜等。微博的热搜,不一定是真的。
详情
🧠 一、为什么算法会推动你到 20 个好友?(核心原理)
社交平台的第一要义,是把你迅速纳入 社交图谱(Social Graph)。
而社交图谱有一个关键规律:
一个用户如果没有足够的社交连接,他的留存率、使用时长极低,很容易流失。
平台工程师会用统计回归分析出一个关键数字,即:
🤝 多少个好友之后,用户才会“留下来”?
这个数字因平台而异,但常见在 15–30 个之间。
于是平台会设定一个 社交激活阈值(Social Activation Threshold)。
当好友数 < 阈值(例如 20):
- 系统会强 push 推荐好友
- 通知栏不断提示人
- 甚至通过自动邀请、通讯录导入诱导你添加好友
- 目的:推到阈值区间
当好友数 ≥ 阈值:
- 推荐强度下降
- push 变少
- 系统认为你已经“激活成功”
结果就是:
大量用户在好友数分布图上卡在这个阈值附近,形成一个明显的小高峰。
📊 二、这种效应在数据上如何体现?
好友数本应呈现“长尾分布”:
- 大多数人好友很少
- 少数人好友很多
但因为这个算法 push,分布中会出现一个 非自然的峰值 —— 这在系统建模中被称为:
📌 Algorithmic Plateau(算法台阶效应)
这个“台阶”正好在阈值附近(如 20)。
你看到的不是自然行为,而是算法塑造的 “人为集群点(Artificial Cluster Point)”。
🧲 三、平台为什么要这样“干预”?
三个最重要的理由:
1)提高新用户留存率
好友数太少 = 没内容看 = 会流失。
所以算法帮你构建最低限度的社会关系网。
2)稳定用户行为
有了基础好友,平台就能预测:
- 你会看谁的内容
- 你会点赞谁
- 你会和谁互相吸引流量
这让算法更好发挥效力。
3)增强平台黏性
连接越多,机会成本越高,你越不舍得离开平台。
🎭 四、这就是“算法干扰(Algorithmic Intervention)”的本质
你以为:
- “很多人自然停在 20 个好友”
- “他们可能就喜欢这个规模”
- “可能只是巧合”
但真相是:
这是平台在背后悄悄地“塑造”用户行为。
算法不是中性的,它不断地推你、诱导你、调整你、塑造你。
最后用户行为看起来像“自然的”,但实际上只是:
✔ 被算法引导后的产物
✔ 平台希望你成为的样子
✔ 一种隐蔽的干预(Algorithmic Nudging)
🔮 五、如何用这个例子讲信息茧房、推荐算法、行为引导?
这个故事是说明算法影响的最佳入门案例。
你可以从这个例子引申出:
1)推荐算法如何塑造我们的偏好
(平台会让你“变成它想要的行为模式”)
2)社交网络如何强化你的圈层
(达到一定好友数后,你看到的世界就被“固定”)
3)为什么我们会以为自己在“自由选择”
(实际是算法在设定轨道)
4)算法如何创造“集体错觉(Collective Illusions)”
—— 你以为大家都喜欢 20 个好友
—— 其实大家都被强推到这附近
顺便说一下,很多大数据其实都是二手数据,但是二手数据不只是大数据。二手数据还有好多来源,例如其他科学研究产生的数据,公开的共享的数据库、政府有关部门发布的数据等。
如果你会使用数据爬虫,就可以抓取很多数据为你所用。当然,这么做必须合法,或者得到对方的授权。
第二:不要低估数据清洗的重要性、难度和成本。
数据清洗,特指再次利用大数据做数据准备的时候要做的工作。大数据在收集的时候会有各种污染,如果不清洗就处理,得出的结论就不可靠。
举个例子:
美国加利福尼亚州有一所小学,按照法律规定上报学生违纪的记录。这所小学共有学生 654 名,但是在 2010-2011 学年,一年就报告了 306 次禁止学生携带枪支进校的记录。要知道,此前五年,这个学校每年由于各种原因需要上报的事件总数也没有超过131起。很显然,这次的统计数据有问题,有部分数据被污染了。
当时,记者拿这个数字去问当地教育部门的负责人,质问他怎么解释这个错误的发生。像不像我们的《焦点访谈》?结果,当地县市级的教育负责人说,我们没有时间检查数据的准确性;州一级的负责人则说,我们并没有对数据再次进行独立检查的机制,应该由当地学区负责上报数据的准确性。你看,他们就这样把球踢来踢去,互相甩锅。
这个案例说明了数据污染的一个来源——生产数据的机构只管生产,不搞品控,没有人对数据的准确性负责。
当然,还有更多的数据污染的问题,时间有限,就不展开了。
总之,清洗数据是非常费时费钱的,有人估计,它的花费经常占到项目成本的 80%。真是“天下没有免费的午餐”,虽然省去了主动收集数据的成本,但是清洗数据并不是免费的。
第三:使用大数据时,要理解大数据的代表性问题。
很多人都会有一个误解:以为大数据数据量大,它的代表性就好。但是,放在历史长河里,不管大数据多大,它都只是一个样本。
比如,支付宝的支付行为数据,数据量够大吧?但是横向方面,还有微信支付、银行卡支付、现金支付、数字货币等围追堵截;纵向方面,支付宝的数据最多也才持续一二十年。这种情况下,我们能用支付宝的数据推断中国人整体的支付行为特征吗?——显然不能。
这也说明:大数据虽然好用,但并没有改变抽样的原理和用处。但是大数据因为数据量大,也有自己独特的价值。
举个例子:
两位科学家对约 25000 名英国男性医生进行了多年的追踪,发现了一个很强的“暴露–反应关系”——抽烟越多的人,死于肺癌的可能性就越大。虽然根据这组男性医生的情况,估算所有英国人的肺癌患病率是不明智的。但样本内的比较,也就是比较这 25000 名医生里吸烟与不吸烟的情况,也能为证明“吸烟致癌”提供证据[1] 。
你看,区别就在“样本内比较”还是“把结果推及总体”。做样本内比较或者分析个体的行为,大数据很擅长。但是把结论推及总体,大数据经常不能支持这个任务。
学完了收集数据的各种方法,从下一讲开始,我们进入课程的新模块,看看怎么去理解数据。
我是悦创,我们下一讲再见。
划重点:
大数据带来了新的思维方式和利用方式,不仅冲击了传统的数据收集方式,也极大地拓展了我们的能力,我们必须与时俱进。
大数据拥有海量性、持续性和不反应性等优势,但使用时也有很多要避免的坑。
善于把大数据和小数据相结合,才是我们利用数据的最高境界。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

案例源于《计算社会学》。 ↩︎
更新日志
f8c4e-于15b4f-于9a937-于eb834-于bf9cf-于506a4-于c5f83-于d1593-于1fd4e-于91743-于aa793-于