10-抽样:怎么确保样本能推断总体?

你好,我是悦创。
有了前面两讲的铺垫,我们就可以学习怎么收集数据了。收集数据,第一件事就是要考虑一个问题——找谁收集数据?
这个问题的答案,就是抽样。提到抽样,你肯定不陌生,就是从一大堆东西中挑选出一小部分样本,然后通过样本的情况对总体做定量描述。通俗地说,就是以小见大。
问题自然就来了,直接调查总体不行吗?为什么要抽样呢?
- 是因为总体太大,调查不过来吗?是,也不全是。
- 是因为抽样出结论的速度更快吗?是,也不全是。
- 是因为抽样的成本低吗?是,也不全是。
- 或者按照数据思维课的路数,答案都是,没必要。
如果用 2000 人就能知道 2 亿人的情况,省事又省钱,还调查 2 亿人干嘛呢?土豪请随意吗?不,那是土豪没文化,没本事,没有数据思维。
怎么才能做到一个好的抽样呢?你记住一件事就行——样本要对总体有代表性。 抽样时我们做的所有工作,都是这句话的落地。
1. 必须使用概率样本
为了加深你的印象,我举一个经典案例。这个案例太经典了,所有讲抽样的书都会提到它,就像学唐诗必学“床前明月光”那样。
它就是美国《文学文摘》预测总统大选的故事,故事是这样的:
1936 年,编辑部发出了 1000 万张问卷,回收了 240 万份,而当时的选民总数才 4000 万。因此,编辑部在发布预测结果的时候,还假惺惺地谦虚了一把,说“我们不能使用绝对无误这个词,我们十分清楚模拟选举的局限性”,意思就是,“也就跟你们客气客气,我们才不会错”。结果呢?他们不但错了,连方向都是反的。
那么,《文学文摘》错在哪里了呢?
原来,杂志社的样本绝大部分来自于家里有电话或者有汽车的家庭,而 1936 年的美国,刚走出经济大萧条。这时候家里有电话、汽车的都是富人。所以,尽管样本量高达 240 万,但是穷人不在里面,而穷人的数量又比富人多多了,因此,这个样本就没法代表全国选民。
你看,样本量大不会自动就有代表性。你征集了 200 万的签名,也不一定就代表民意。
怎么才有代表性呢?很简单,当样本的各种特征大体接近总体的特征的时候,样本就具有代表性。
这时候,另一个经典案例出场了。同样是在 1936 年,《文学文摘》倒下去,盖洛普调查公司站了起来,因为总统大选预测正确而一战成名。
盖洛普做对了什么呢?
它使用了配额样本,就是根据总体的情况分配样本数量。比如,总体中男女比例是 7 比 3,那么如果样本总量是 100 人的话,男生就分配70 人,女生分配 30 人。盖洛普凭借这个方法,连续预测成功。
不过,事不过三,1948 年,盖洛普第四次预测总统大选时也被打脸了。
为什么呢?因为配额样本毕竟不是概率样本。到这里,关于抽样,你要掌握的第一个知识点就出现了——只有概率样本才能确保全面反映总体情况。为了保证代表性,必须使用概率样本。
概率样本的意思是说:每一个样本都要按照事先确定的概率规则选取。听起来,配额样本和概率样本有点像,但其实不一样。我举个例子,你就明白其中的差别了。
比如,抽中一个男生宿舍,宿舍一共有 6 个学生,要调查其中 1 个学生。
- 配额样本的做法是,找这个宿舍里任何 1 个学生都可以。
- 而概率样本的做法是,随机地确定 1 个学生。怎么随机确定呢?先给这 6 个学生编号,123456,然后扔骰子。一扔,5号。那好,只能找 5 号学生。你说 5 号学生去图书馆了,不在。那不行,喊他回来,别的同学不能代替。当然,这里扔骰子只是个比喻,实际上不是这么做的。
由于有数学上的保证,概率样本确保可以推断总体的情况。但配额样本好不好使,就要看运气了,有些条件下还可以,另一些条件下就不行。
就拿 1948 年盖洛普被打脸这个案例来说吧。当时,盖洛普配额的依据是美国 1940 年的人口普查数据。但是,二战结束了,大量农村人口涌入城市,改变了人口结构,1940 年的配额方案已经代表不了 1948 年的选民情况了。于是,和《文学文摘》一样,盖洛普也倒在了代表性这个坑里。
不过,有一点要注意:样本代表性,专指与研究目的相关的维度对总体有代表性,而不是对总体全面的代表性。
比如一片森林,你要是想估计木材的总储量,那树木的品种就不重要,而树的大小就重要。这时候,样本要对大树小树有好的代表性,是杨树还是松树就不必太关心了。
2. 根据需求确定样本量
现在我们知道选择样本原则了,新问题又出现了——要选择多少样本呢?这个主要看你的需求。
你猜,盖洛普预测美国总统大选要抽样多少人?答案是,2000人。
而且专家还会告诉你,增加样本量,抽 2 万人,20 万人,200 万人,对预测总统大选来说,和 2000 人差不多,精度不会有大的提高。因为样本量和误差水平之间不是线性关系,而是有两个阶段——
- 阶段一:刚开始是随着样本量的增加,误差水平减少;
- 阶段二:但超过一个范围后,样本量的增加就很少导致误差的减少了。
我再举一个中国的例子。电视节目收视率是投放广告的重要依据。每年的电视广告总盘子得有几百亿。既然这么重要,用来收集这个数据的全国网用了多少样本户呢?你先猜。猜之前我告诉你,全国电视人口的数量大约是13亿,比美国人口还要多差不多10亿。
答案来了,样本户是 10400[1] 。
补充
“广告总盘子”
这里的“盘子”是口语化说法,意思是一个市场里可供分配或使用的总量。
“广告总盘子”就是指 某一年(或某一阶段)全国电视广告市场的总规模/总金额。
比如文中说“每年的电视广告总盘子得有几百亿”,意思就是——全国电视台一年能卖出的广告费加起来是几百亿人民币,这是一个广告主们共同分食的大市场。
“样本户”
“样本户”就是被选出来作为调查对象的家庭。
在收视率调查中,不可能给全国每个家庭都装设备,所以调研机构(比如央视的“全国网”)会挑出一部分家庭,给他们家里的电视机安装收视率监测仪器。这些安装了设备的家庭就叫做“样本户”。
收视率数据,就是靠这些“样本户”的真实收视行为统计出来,再代表全国电视人口。
🔑 换句话说:
- 广告总盘子 = 广告市场的“钱袋子总量”。
- 样本户 = 用来代表全体观众、承担收视率统计的那一小撮家庭。
“全国网”特指 央视-索福瑞媒介研究公司(CSM,现为 CTR 媒介融合研究旗下)做的全国电视收视率调查网络。
📺 通俗解释:
- 它是一个覆盖全国的 电视收视率测量体系。
- 在全国不同城市、乡镇,抽取一批有代表性的“样本户”,在他们家里的电视上装上收视率监测设备(俗称“收视率仪”)。
- 这些样本户的观看数据会被集中采集、统计,形成“全国网收视率”。
📊 用途:
- “全国网”数据是 广告主决定投放广告、电视台制定广告价格 的重要依据。
- 因为广告主要知道:我花几百万在某个频道投广告,能被多少人看到?
所以:
- 全国网 = 全国范围的电视收视率调查系统(一个样本网络)。
- 它相对于“省网”“城市网”等局部收视率网络而言,覆盖面更大,更能代表全国电视观众。
思考:传统电视收视率调查 和 今天的视频平台流量统计 联系起来
1. 传统电视 vs. 视频平台的差别
- 电视:没有互联网,观众看什么节目,电视台自己是“看不到”的,所以要靠 样本户 + 收视率仪 来推算全国观众的观看情况。
- 在线视频平台(腾讯视频、爱奇艺、优酷等):观众是通过手机、电脑、电视机顶盒等联网设备观看的,每一次点击、播放、暂停、拖动,都会被后台系统直接记录。
2. 视频平台的统计方式
(1)日志埋点(Log/Tracking)
- 每个用户的播放行为都会写入服务器日志。
- 数据包括:用户 ID/设备 ID、时间戳、播放时长、播放进度、是否全屏、是否快进/拖动、是否付费等。
- 这种方法是真实、直接的,不用抽样。
(2)用户行为大数据分析
- 平台会在大数据平台(如 Hadoop、Spark、Flink)上,实时汇总全网用户的观看行为。
- 统计指标:播放量(VV)、独立观众数(UV)、完播率、平均观看时长、付费转化率等。
(3)多端打通
- 因为一个用户可能用手机、平板、电脑都看,所以平台会通过账号体系、设备指纹等方法来做用户合并。
(4)对外披露
- 平台自己有公开的排行榜(热播榜、热搜榜)。
- 广告主或投资人通常会要求第三方机构做独立监测,比如:
- 云合数据:统计网播量(播放指数)。
- 骨朵数据:剧集/综艺网络热度榜。
- 艺恩数据:影视行业专业数据服务商。
3. 总结
- 电视时代:靠“样本户 + 收视率仪” → 只能间接估算。
- 视频平台时代:靠“埋点日志 + 大数据” → 可以直接、精准地统计每一个用户行为。
所以,腾讯视频、爱奇艺、优酷这些平台的统计,比电视收视率要 更精确、更实时、更维度丰富。
4. 电视收视率 vs 网络视频平台统计 对比表
| 维度 | 电视收视率(全国网等) | 网络视频平台(腾讯视频/爱奇艺/优酷等) |
|---|---|---|
| 数据来源 | 样本户家庭(装收视率仪) | 全量用户日志(埋点采集) |
| 统计方式 | 抽样 → 推算全国 | 实时全量记录,每个用户都统计 |
| 样本量 | 约 1 万户(代表全国 13 亿人口) | 上亿活跃用户,直接记录全部行为 |
| 指标 | 收视率(%)、市场份额 | 播放量(VV)、独立观众数(UV)、完播率、付费转化率、弹幕互动等 |
| 准确性 | 依赖抽样,可能有误差 | 精确到用户、设备、时间戳,误差极小 |
| 实时性 | 通常是次日/隔天才能出结果 | 实时统计,可分钟级刷新 |
| 数据所有权 | 第三方机构(CSM/CTR 等) | 平台自有数据(腾讯、爱奇艺、优酷) |
| 对广告主的价值 | 粗粒度,适合电视广告投放 | 精细化,支持定向投放、用户画像分析 |
| 额外能力 | 只能看收视率 | 能做推荐算法、用户画像、精准营销 |
📌 一句话总结:
- 电视收视率 = “抽样测算,全国平均温度”。
- 网络视频统计 = “每个用户的体温计,逐秒记录”。
注意:这是户数,不是人数。具体人数官网上没有,但我们已经学过估算了,你可以估算一下。按一户平均有 4 口人计算,一万户就是 4 万人,样本量就是 3 万到 4 万人之间。
为什么预测总统大选只需要 2000 人,而调查收视率却要 3 万多人呢?
因为需求不一样:
- 选美国总统,大部分情况是二选一,不是民主党就是共和党,这种情况对样本量的要求不大。
- 但电视节目不行,比如一些深夜的节目,本来看的人就不多,需要调查很多人才能体现真实的收视率,所以样本量就需要很大。
你看这次辉瑞制药公司做的新冠疫苗三期临床试验,受试者高达 4.3 万人。就是因为疫苗涉及生命安全,对样本的代表性要求特别高,因此就需要更大的样本量。
关于样本量,理解这些就足够了。其实,确定样本量是一个技术活儿,因为需求还有很多角度,因此要考虑的因素很多,有时候需要艰难地权衡,所以重大项目还是聘请专家吧。
3. 非概率样本应对复杂情况
现实是复杂的,概率样本固然靠谱,但很多情况下我们都做不了概率样本,怎么办呢?
这就是我们要掌握的第三个知识点——可以用非概率样本应对复杂情况。
比如,我们想了解同性恋人群的情况,可这是一个非常敏感的问题,很多人不会告诉你实情。怎么办呢?可以试试滚雪球抽样。先找到一个同性恋者,再请这个同性恋者介绍其他的同性恋者,这样循环下去,就像滚雪球那样,越滚越大,最后可以得到足够多的样本量。
为什么第一个被发现同性恋者愿意帮助呢?
本质上讨论的是:为什么可以把这个雪球滚起来。
- 原因一:想要同性恋群体拥有更多的权益;
- 原因二:被收买哈哈哈哈;
- 原因三:我既然被发现,那么我也要让你被发现的一种心理;
- ……
非概率抽样有很多形式,这里就不一一介绍了。非概率样本最大的问题就是,不能确保样本能代表总体的情况,所以使用非概率样本的结论时一定要慎重。
这里补充一下,近年来,一些科学家也玩儿起了非概率样本,让经过处理的非概率样本也具备了推论总体的能力。
比如有一个研究,受访者都是来自 Xbox 的美国用户,能用这个样本预测 2012 年的总统大选吗?Xbox 是一款微软出品的游戏机。可玩儿游戏机的大部分都是男青年,怎么能代表美国选民呢?但是,研究者使用了事后分层和分层回归技术,发现预测效果很不错。
所以,艺高才能胆大,要是自己技艺有限,还是请专家咨询比较好。
思考题
问题:
举个例子,要在学校 1000 名学生中抽取 20 人做一个关于早恋问题的访谈,用系统抽样抽到了小明,但是小明死活不愿意接受访谈,怎么办?可以换样本吗?
解答:
关键点:概率样本不能随便替换
- 在概率抽样里,每一个样本都必须 按照事先确定的随机规则 被选中。
- 一旦被选中,就不能随便用别人顶替,否则就破坏了「随机性」,样本的代表性也就失效了。
比如:小明不愿意,你说“那就换隔壁小红吧”。这时小红出现的概率就不是原来设计的概率了,整个抽样设计就被破坏了。
实际操作里怎么办?
遇到这种情况,有几种常见的处理方式(要事先在调查方案里写清楚!):
- 坚持原则:不换人
- 按概率抽样的严谨做法,小明不参与,就只能记为「缺失」。
- 后续在分析时,通过统计方法(比如加权、插补、舍弃该个体)来处理。
- 设置“预备样本”机制
- 在抽样前,就多抽一些候补,比如抽 25 人,其中有 5 个是预备的。
- 如果小明拒绝,就启用候补样本。这样依然是“事先设定的随机规则”,不会破坏概率性。
- 提升响应率的策略
- 用沟通技巧解释研究目的,降低学生的抵触情绪;
- 强调匿名性和保密性;
- 适当给点小激励(比如校园小礼品),提高配合度。
- 记录非响应情况
- 如果最终还是有人拒绝,一定要记录“拒绝比例”和“拒绝者的特征”,因为这可能导致 非响应偏差(比如,是否更倾向于早恋的学生拒绝回答?)。
- 坚持原则:不换人
总结回答
👉 在系统抽样中,如果小明死活不愿意接受访谈,原则上不能随意换人,否则会破坏样本的随机性。
更好的做法是:
要么事先设计候补样本;
要么把小明记为“未响应”,在数据分析时处理。
这也是数据思维里非常重要的一点:代表性来自规则,而不是来自方便性。
4. 抽样结果是个有限制的范围
选择了样本、确定好了样本量,调查也完成了,怎么解释调查的结果呢?
这就是我们要掌握的第四个知识点——抽样调查的结果是一个有限制条件的范围,而不是一个单一的数值。
举个例子:随机抽样 2000 名中国人,女性比例是 49%,我们可以说中国人的性别比例是女性占 49% 吗?
不能。没有数据思维的人最容易犯的错误,就是用样本的结果直接代表总体的特征。真正的抽样调查的结论是这样一个句式,“在什么置信度水平下,总体的特征值在什么范围内”。上面那个例子,结论的正确表述是,“在 95% 的置信度之下,中国人的女性比例在 46.8% 到51.2% 之间”。
置信度是表达你对结论的信心,95% 的置信度就是 100 次可能有 5 次错误。这是一个行业通用标准,我们就不展开了。
而范围则隐含了一个误差水平的设定,在上面的例子里,误差就是正负 2.2 个百分点。
再强调一遍,不要把抽样结果直接用在总体上,真正的结果是一个带限制条件的范围。能想到了解这个限制条件,是具备好的数据思维的表现。
说完了抽样,下一讲,我们说说另一个重要的收集数据的方法——问卷。
我是悦创,我们下一讲再见。
划重点:
只有概率样本才能确保全面反映总体的情况。
现实工作中,非概率样本也可以帮助我们应对一些复杂的、概率样本难以覆盖的情况。
抽样调查的结果是一个有限制条件的范围,而不是一个单一的数值。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

数据源于索福瑞官网。 ↩︎
更新日志
e4647-于643a9-于9a8fd-于1bf8e-于17ef5-于03fc6-于d62c8-于