06-估算:为什么要敢于不精确?

你好,我是悦创。
这一讲,我们讨论一个数据思维的重要议题——你敢不敢做估算?
估算,你肯定不陌生,就是对事物的数量做大概估计或者推断。当然,这种估算不是文学性的。
比如:
- “几处早莺争暖树,谁家新燕啄春泥”,请问诗人到底看见了几处早莺?
- “竹外桃花三两枝,春江水暖鸭先知”,如果要把它画出来,桃花是画三枝还是两枝呢?
这一讲说的估算,是一个数据思维的议题,我们得回到现实生活和工作的场景中。
现实中,数据经常被看成是严谨的代表。
比如:一米是多少呢?从 2019 年 5 月 20 日起,米的定义变成了“当真空中光速 c 以 m/s 为单位表达时,选取固定数值 299792458”。科学家是一帮严谨狂人,严谨起来六亲不认,把数据的精度玩儿到了极致。
但你注意到没有,把精度玩儿到极致,是一个极度消耗时间和金钱的事情。
一个典型的例子就是,被称为人类有史以来极限精度的制造成果——詹姆斯·韦伯太空望远镜项目。这是美国宇航局史上最复杂的项目之一,任务是观测宇宙的初期状态。据报道,这个望远镜的镜面加工精度是 10 纳米,也就是几十个原子的宽度。到现在,这个项目已经花了 100 亿美元以上,最近消息说它将在 2021 年 3 月发射。
当然,花这么大的代价一定是值得的。但我要说的是,我们不能因为数据精确有好处,就对数据精度过于痴迷,不惜代价地追求越精确越好。这并不是数据思维。数据思维的真正含义是,目的决定精度。
什么意思呢?——就是先决定怎么解决问题、设定好我们解决问题的目的,再匹配相应的精度的数据。
1. 敢于不精确,不能太离谱
我们来做一个练习。
请问:一家星巴克咖啡店一年能卖出去多少杯咖啡?需要你在 5 分钟之内给出答案。怎么办呢?
5 分钟给出答案,很明显,这个问题只是让你对一家咖啡店的规模有个大致的认识,而不是要精确到个位数。所以,靠估算就能解决。
不过,这又暴露出一个新问题:虽然是大致估计,但很多同学说,还是不知道怎么入手。还有人说,这个问题不会有答案。因为城市不同、地区不同、规模不同、档次不同,这么多不确定的条件,怎么可能有答案呢?
别着急,我们试着估算一下。要知道一家星巴克店一年能卖出去多少咖啡,我们先要知道,如果每一分钟都火力全开,一家店一年能做出多少杯咖啡呢?也就是从供给端看它的最大供应量,然后考虑平时、周末这些调整因素,最后就能得出结果。
思路确定了,接下来就是计算。
我们按一年有 400 天计算。有位同学说了,等等,一年不是只有 365 天吗?我当然知道一年有 365 天,我还知道每 4 年就会有一年是366天呢。但是,5 分钟要估计出来,你是用 400 好算,还是用 365 好算呢?这里敲黑板强调一下——要敢于不精确。
好,一年有 400 天,接下来就是估计每一天的最大供应量。一天一家店营业 15 个小时。有位同学又说了,等等,我们家附近的星巴克不是一天营业 15 个小时。你看,刚说完就忘了,要敢于不精确!
好,一天营业 15 个小时,那一个小时能做出多少杯咖啡呢?
星巴克的运作方式是这样的,做一杯咖啡,要有三个环节——点单、收银、制作。点单加收银,平均时间算 1 分钟,制作咖啡平均算 2 分钟。假如店员不缺,那么瓶颈就在咖啡机上。一般的星巴克单店会配备 2 台咖啡机,一台咖啡机能同时做 2 杯咖啡。这样 2 分钟的极限生产量就是 4 杯。
这样就能心算了。2 分钟 4 杯,一个小时就是 120 杯,十个小时就是 1200 杯。5 个小时就是 600 杯。营业 15 个小时,1200 加 600,就是 1800 杯。
现实中,这个极限一般不会出现,那就打个折。大致来看,平日量少,周末量大,一天内忙的时候少,闲的时候多。这样里里外外算下来,就打四折吧。一折是 180 杯,算 200 杯,四折就是二四得八,800 杯。
800 杯乘以 400 天。800 杯有 2 个 0,400 天有 2 个 0,一共 4 个 0,所以乘起来就是万。这样就好算了,四八三十二,一共 32 万杯。
交卷。一家星巴克单店,一年大约能卖出 32 万杯咖啡。
从这个案例中,我们能有什么收获呢?收获就是一句话——敢于不精确,但不能太离谱。
上半句“敢于不精确”说的是,答案要是精确,就需要付出资源、时间和金钱。但是大多数问题不需要那么精确,够用就好。
问:从北京飞新加坡多长时间?答:6 小时。
问:东方明珠塔有多高?答:500 米。
这些答案足够用了,不必那么精确。
下半句“不能太离谱”说的是,数据虽然是估算的,但是要有依据。只要估算结果在准确值的 10 倍范围内,就是合理的。
为什么是 10 倍?因为这是同一个量级的。
“量级”是什么意思?举个例子,说的是大黄鱼,以一斤为标准:普通养殖 10-20 元,深海养殖(半野生)100-200 元,纯正野生 1000-2000 元。每高一个等级,价格差一个零。——这就是量级的意思。
当然,要保证外推估计的结果不会太离谱,还有一个要注意的点——条件不能有重大变化。
比如,一段高速公路上有 100 辆车的时候,车的时速可以达到 120 千米;有 1000 辆车的时候呢?估计时速达到 120 也大差不差。但是到了 10000 辆车的时候,你就不能估计时速还能达到 120 了,拥堵才是最可能的情况。
芯片也是这样。一个指甲大小的芯片上,你不能无限制地估计晶体管的数量会以指数级的增加。到后来,散热、功耗、量子效应等问题都会登场,导致你估算失败。
2. 两点额外收获
从星巴克这个例子,我们还能有什么收获呢?至少有两点。
第一:我们可以知道解决这类问题的通用套路。这个套路就是,把大问题分解成小问题,把小问题一个一个解决,再把这些小问题组合起来,就解决了大问题。
星巴克这样的题型是一些大公司的面试官特别爱出的,目的不是要知道正确答案,而是要看你在答题中展现了什么样的解决问题的思维方式。
第二,星巴克的问题是一个典型的询问市场规模的问题。现在这个解答,方向是从供给端进行推理。聪明的你肯定会意识到,从需求端也可以是一个方向。
比如,我们可以算算这道题:北京市一年用过的快餐盒,一件一件地铺在地上,能铺多大的地方呢?
有了之前的铺垫,现在听见这道题,也没有那么恐惧了吧?这道题的关键点就在于,怎么估计北京市人口一天的快餐消费量。这就是典型的从需求角度解决问题的案例。这也是我们这一讲的作业,你可以算一下,把思考过程贴在留言区,大家一起讨论。
3. 两个估算技巧
总之,估算能让我们在知道很少信息的情况下,得出相对靠谱的数据,从而指导我们的行动。具体的估算方法还有很多,这里再介绍两个常见的。
3.1 技巧一:二八法则
这个法则很有名,你肯定听说过。这次提到它,是要理解它是一个非常好的估算法则,特别是在非线性的情况下。非线性,就是很少的东西会产生很大效果的那些事情。比如,传媒业产值的 80% 来自设备,只有 20% 来自内容。而在内容这一块,产值的 80% 来自娱乐内容,只有 20% 来自新闻。
如果公司 80% 的利润来自 20% 的客户,那么找到这 20% 的客户并且理解他们、服务好他们就很重要。如果 20% 的公司占有 80% 的市场份额,那么盯住这 20% 的公司,就会让你省很多力气。
3.2 技巧二:1%法则
你要在一件事上投入多少,就花大概 1% 的价值来做分析和判断。
它说的是,你进行决策分析的花费应该约为决策价值的 1%。比如,如果你要买一幢价值 1000 万的房子,那就花 10 万左右去研究它。
如果价值和花费不能用价格衡量,那就用时间。
如果 10 万元没有感觉,那就算一下你工作一个小时的税后收入,然后用 10 万去除,得出的结果就是你应该在这件事情上花的时间。
再比如,要是你接受了一个工作,将花费你 50 个小时的时间,你就用 50 小时的 1%,也就是半个小时,思考一下这件事值得不值得做。
📌 这套方法的核心就是:
别因为省一点小钱、小时间,就草草做决定,结果可能损失更大。
理解了数据因人而异、目标决定精度,知道了从不同背景中挖掘不同的信息之后,我们就可以面对这一模块最重要也最本质的问题了——究竟什么是数据?
不把这个问题搞清楚,我们前面所有对数据的感知就都是空中楼阁。所以下一讲,我就试着正本清源,带你真正把它梳理明白。
我是悦创我们下一讲再见。
划重点:
对数据精度的过分迷恋是一件要警惕的事情。根据目标确定需要什么精度的数据,才是好的数据思维。
估算能让我们在知道很少信息的情况下得出相对靠谱的数据。估算时要做到两点——敢于不精确,但不能太离谱。
“二八法则”和“1%法则”是两个非常好用的估算技巧。
举例 1:买房子
你准备买一套价值 1000 万的房子。
那么,至少要拿出 10 万(1000 万 × 1%)来做功课。
👉 比如请专家验房、查清产权、调研地段和学区、比较贷款方案等等。
举例 2:换算成时间
有些事情不好用钱来衡量,就换成 时间。
假设你接下一个项目,需要 50 小时才能完成。
那么,你至少要花 0.5 小时(50 × 1%)去认真思考:
👉 这个项目值不值得做?有没有更好的方式?
举例 3:算算自己工资
如果觉得“花 10 万研究买房”没感觉,那就换算成你自己的时间:
- 假设你税后时薪是 200 元。
- 那 10 万块相当于你 500 个小时的收入。
- 所以你至少要花 500 个小时 × 1% = 5 小时,来做调研和判断。
关于星巴克的测算:
以 “星巴克” 为关键词搜索我的印象笔记,找到中建投的星巴克研究报告,报告内搜索单店产出、销售额,发现没有结果。
接下去搜索中国,发现只有中国 / 亚太地区,找到亚太地区的 2017 年销售额是 24 亿美金,店铺数量只有一个图表,中国 2900 多家,日本 1200 多家,韩国 900 多家,其他亚洲小国分别两三百家,把中日韩加在一起得到 5000 家店左右,则一家单店产出的月销售额是 28 万人民币。
报告中还讲了饮料的占比是 73%,则每家店每个月的饮料销售额是 20 万左右,你卖的最多的拿铁一杯,32 块钱为标准,则每个月的咖啡销售倍数为 6387 杯,一个月的销售量为 76644 杯。
博主估算 32 万杯,大约为博主估算数量的 25%
如果是这个数量级的误差,这种简单的估算将毫无意义:因为这样的误差下的估算值,无法帮助你做商业决策
借你的留言说一下课程当中没有时间说到的事情,供你和同学们参考。
1,你的工作是在验证估算的精度,而不是理解估算的意义和适用条件。
2,如果你觉得从实际值推算的结果和估算结果差距很大的话,至少有三个方向可以复盘。
第一个方向:估算模型的复盘,是因素数量少了,还是因素的参数不合适呢?因素数量是指相关影响因素多了还是少了。因素的参数是指某一个影响因素的参数值选择不合适。比如营业时间是按 15 个小时,还是 10 个小时选取。
第二个方向:实际值推算转换的方式。用实际销售额来转换咖啡杯数,考虑的因素和因素的参数选择的合适吗?对应估算设定的假设条件吗?
第三个方向:实际值的来源和可信度。实际值就是真实可靠的吗?实际值究竟指代什么意思?比如销售额的定义是什么。
3,反复迭代。应该有意识地训练,如果知道更多的信息之后,如何调整估算的模型和参数,让下次估算的精度提高。
别忘了,在 5 分钟之内出一个估算结果,连上大众点评核实营业时间的机会都没有。不能用知道了较多信息之后的计算结果来否定没有这些信息之前的估算的价值。
正是因为缺少相关信息,所以才需要估算,精度不可能很高。用费米估计钢琴调音师的案例,暗示估算可以精准,多少有点误导,高估了估算的精度。
4,网上是可以查询到比较新近的数据的。
网上资料显示,2020 年 10 月 30 日,星巴克公布了 2020 年财年 Q4(7 月到 9 月)财报。星巴克 Q4 全球营收 62.03 亿美元,同比降低 8.1%。目前在中国的店铺总数达到了 4700 家。
上面数字显然受到疫情影响,如果用 2020 财年 Q1 数据(即 2019 年 10 月到 12 月),也就是疫情爆发之前最近的数据,Q1 中国市场营收 7.45 亿美元,门店总数 4292 家,去除汇率影响同比增长 13%。
这些数据可以帮助我们复盘课程中的估算模型和参数选择是否合适。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

更新日志
e4647-于9069a-于8b152-于123c4-于71d00-于9d613-于83c05-于86e06-于7a500-于6a153-于e9f04-于27b2a-于d0c8b-于