16-分解:究竟谁对你影响最大?

你好,我是悦创。
现实生活中,我们面对的问题都特别复杂,常常是各种因素交织在一起。这时候,怎么把各种因素分开,又怎么把理解的难度降低呢?
解决这类问题,就要靠分解来完成。分解,就是我们这一讲的主题。
1. 什么是分解?
先举个例子给你感受一下:
美剧《纸牌屋》里有一个场景,模拟竞选总统电视辩论,每人一分钟时长。其中有一个人说,我是来为公平而战的,其中就包括为女性权利而战。数据显示,美国男性挣1美元,女性只能挣77美分。这就是不公平。
这个情节是有真实依据的。当年的美 国总统克林顿在竞选的时候引用的是相同的数据,承诺他就职后会推进男女平等,缩小差异。
男女之间的工资有差异,这是事实。现在的问题是,这个差异是不是就说明两性之间的不平等呢?
不一定。因为从逻辑上说,这里有两个可能的影响因素,一个是两性的身心差异,另一个是歧视。这23美分的差异多大程度上是因为两性的身心差异?多大程度上是因为歧视呢?想知道这两个因素的影响程度如何,就需要分解。
看到差异 ≠ 找到原因
一个非常常见、但也非常危险的思维跳跃是:
既然男女工资有差异,那这个差异一定是“歧视”造成的。
从逻辑上说,这个结论并不成立。
因为我们至少可以想到 两类完全不同的影响因素:
1️⃣ 自然差异(可解释差异)
比如:
- 身体条件差异;
- 工作时间差异;
- 行业选择差异;
- 工作年限、风险承受程度差异;
- 是否更可能从事高强度、高危险、高报酬的岗位;
这些差异 并不一定源于不公平,而是源于现实中的选择与条件不同。
2️⃣ 歧视(不可解释差异)
即:
- 同样的能力;
- 同样的岗位;
- 同样的工作时间和绩效;
却因为性别不同而获得不同的报酬。
这就是“分解”要做的事
于是,真正有价值的问题就变成了:
👉 这 23 美分里,有多少是“可以用合理因素解释的”?又有多少是“无法解释、只能归因于歧视的”?
要回答这个问题,不能靠情绪,也不能靠口号,只能靠分解。
用数学,把差异拆开
如何通过数学分解男女工资差异?
在讨论男女工资差异时,数学分解提供了一种非常科学的分析方法,避免了简单的情绪化反应,也避免了片面地归结为“歧视”这一单一原因。
问题的起点:整体差异
首先,假设我们有以下的现实情况:
- 美国男性的平均工资是每小时 1 美元;
- 美国女性的平均工资是每小时 0.77 美元;
- 差异为 0.23 美元。
初看之下,这似乎是一个显而易见的“不公平”现象,因为女性的工资明显低于男性。
然而,这个“差异”背后可能有多个因素,不仅仅是性别歧视。
拆解差异:分解成不同的部分
为了更准确地理解差异的来源,经济学家们提出了一种数学模型,通过控制不同的因素来拆解这个差异。
这里的数学模型通常通过回归分析(regression analysis)来实现。回归分析是一种统计方法,用来研究多个变量之间的关系。它可以帮助我们理解每个因素对结果的具体影响。
在这种情境下,我们要分析的是:**工资差异(0.23 美元)**是由哪些因素引起的?
这些因素可以包括:
- 身心差异
- 工作经验和年限
- 职业选择
- 教育背景
- 工作时长
- 行业选择
- 家庭责任(比如育儿等)
这些因素会影响工资的差异,而不是性别本身的问题。举例来说:
- 一些行业(例如科技、金融)普遍男性比例较高,而这些行业的工资通常较高。
- 女性在一些传统行业中工作较多,如护理、教育,这些行业的工资水平通常较低。
这些因素都需要在数学模型中进行控制。
线性回归模型:控制影响因素
通过线性回归模型,经济学家们能够区分可解释部分(身心差异、职业选择等)和不可解释部分(可能是由于歧视等因素)。
具体步骤可以如下:
建立回归模型:我们可以建立一个回归方程来预测工资:
其中, 是截距, 是各个变量的回归系数, 是误差项。
控制变量:我们通过回归分析控制所有可能影响工资的因素,例如身心差异、工作年限、行业选择等,这样就能估计出这部分差异是由哪些因素引起的。
计算结果:通过回归分析,我们可以计算出每个变量(例如身心差异、工作经验等)对工资差异的具体贡献。这时候,我们能够得到:
- 例如,身心差异可能导致了 10% 的工资差异
- 其他因素(如行业选择、工作经验等)可能分别贡献了不同的差异。
歧视的部分:
最终,剩余的差异,就是那些无法通过其他因素解释的部分,通常被认为是“歧视”所造成的部分。这部分差异即为不可解释差异。
数学结果:差异的拆解
通过回归分析后,研究人员发现,北欧国家(如瑞典、挪威等)是目前男女工资差异最小的国家。这些国家的工资差异几乎没有受到歧视的影响,主要的工资差异则可以归因于男女之间的身心差异和不同的职业选择。
根据研究结果:
- 身心差异和职业选择解释了大约 10% 的工资差异。
- 歧视部分几乎为零。
这个结论提供了一个衡量标准,即如果一个国家或地区的男女工资差异在 10% 内,那么我们可以认为 女性并未受到系统性的歧视。
现实中的应用:为何这样分解很重要?
为什么我们要做这个分解?为什么仅仅知道差异存在并不够?
帮助我们厘清真相:
如果我们仅仅认为男女之间的工资差异就是“歧视”,那会忽略很多其他因素。例如,女性选择了不那么高薪的行业,或者因为家庭原因无法投入过多的工作时间,这些因素都会造成差异。
为政策制定提供依据:
如果分解出歧视部分,政策制定者就能针对性地采取措施,减少歧视的影响,而不是盲目地对整个社会进行改革。比如,如果发现身心差异才是主要原因,那么对男女工资差异的讨论就不应仅仅局限于“消除歧视”,而应更着眼于如何在工作环境中充分考虑不同性别的自然差异。
理性讨论,避免极端:
分解的过程让我们更理性地看待问题,而不是在看到差异后立刻陷入情绪化或过于极端的结论。科学的分析帮助我们更好地理解社会现象的复杂性。
总结
通过数学的回归分析方法,我们不仅可以拆解男女工资差异的根源,还能更准确地判断出其中是否存在歧视,并为政策制定提供依据。分解思维不仅帮助我们从多个角度看待问题,更能提供科学、理性的解决方案,而不是单纯依赖直觉或情感判断。
有两位经济学家完成了这个工作。他们聪明地使用数学技巧,把整体的男女工资差异分成了两部分,一部分对应身心差异,也就是自然差异,另一部分对应歧视。
时间有限,我们不展开细节了,但可以说一下研究发现:目前,最好的情况是北欧国家,歧视的影响几乎没有,而男女身心差异导致的工资差异大约在10%左右。可以这么说,一个经济体男女工资差异在10%以内,就可以认为对女性没有歧视。
这个案例给我们的启示是,一定要建立分解的意识,不要一见到差异,就想当然地认为都来源于一个单一因素。很多事情,有差异是正常的,平等不等于相等。
2. 因子分解方法
这个案例其实还有一个点,不知道你注意到没有:研究者非常明确地知道要分解成哪两个因素。这给研究者指明了方向。有方向是一件特别幸运的事。很多时候,我们并不知道一个总效应是由什么因素组成的。那是不是就没有办法了呢?
当然不是。我们可以用数据挖掘的技术来帮忙。相关的方法很多,这里介绍一种常用的——因子分解方法。
我先做个比喻,让你理解一下因子分解的思路。
每一个人的体重都不同,这些不同可以分成两部分,共性的部分和特殊性的部分。共性的部分有脂肪、肌肉等,特殊性的部分五花八门,比如有的老兵体内留着一片炮弹碎片。这样你就会发现,对于特殊性的部分,我们做不了什么,因为来源多种多样。而对于共性的部分,可以继续分解,脂肪大概多少、肌肉大概多少等。我们把脂肪、肌肉这些大家都有的东西称为“公共因子”。
体重的问题只是个比喻,因为我们面对的是看不见的事物,用数据的方式提取它们,就需要一点想象力。现在,我们可以用这个思路解决一个真问题:“浪漫爱情”这个抽象的观念如何分解呢?
2009 年,上海社科院的研究者做了这个尝试。受访者回答了19道问题。还记得问卷的知识吗?一道题就是一个变量的测量。我选两道题你感受一下:
问题 1:与爱情相比,社会地位、宗教的不同都不重要。
问题 2:一生中,爱神可能多次降临,但真爱只有一次。
根据受访者的回答,再经过数据处理,浪漫爱情的共性部分被分拆成了6个因子,它们分别是抗阻力、经济基础、非理性、潜在影响(考虑对未来、家庭和后代的影响)、唯一(指爱情的排他性)、激情。
你看,浪漫爱情这个看不见摸不着的东西,它的共性部分就被识别出来了,并且这个共性部分还被我们分解成了6个因素。
那么,这个共性部分的比例是多大呢?研究人员报告说,占了55.4%。不能说有多满意,但是比例也是过半了。
根据这个思路,如果把男女分开测量呢?这样不就能比较出性别差异了吗?比如可以回答这样的问题,总的来说,是男生更浪漫还是女生更浪漫啊?这篇论文的答案是,男生更浪漫。
补充
因子分解方法的应用
研究者通过问卷收集了 19 个问题的答案,并应用因子分解方法分析浪漫爱情这一抽象的概念。通过数据处理,研究者识别出了浪漫爱情的共性部分,并将其分解成了6个因子,包括:
抗阻力:爱情中遇到的外部阻力
经济基础:爱情与物质基础的关系
非理性:爱情中的情感驱动因素
潜在影响:爱情对未来、家庭、后代的潜在影响
唯一:爱情的排他性
激情:爱情中的激情成分
因子分解 = 用一堆题目的“答题相关性”,反推出它们背后在“共同测量什么”
起点:19 道题目到底是什么?
1️⃣ 问卷不是“观点”,而是变量
研究里有 19 道题,比如:
- 「与爱情相比,社会地位不重要」
- 「真爱一生只有一次」
- 「只要相爱,物质条件可以克服」
- 「爱情会影响未来家庭与孩子」
⚠️ 关键点:
在统计眼里,每一道题 ≠ 一句话而是:一个“变量”
2️⃣ 每道题怎么变成“数字”?
通常是 李克特量表,比如:
选项 数值 非常不同意 1 不同意 2 一般 3 同意 4 非常同意 5 于是你会得到一个表:
人 Q1 Q2 Q3 … Q19 A 4 5 3 … 2 B 2 1 4 … 5 … … … … … … 👉 这就是因子分析真正的原材料
你赞同这个结论吗?可以先看看这个研究的数据收集和处理的过程,比如样本只有800人,都在上海和成都,年龄在20-30岁之间,19个变量,55.4% 的解释比例。知道了这样的数据,你也会谨慎对待论文的结论吧?
重点在于,你阅读论文、报告、专著等应该用什么姿势。没有数据思维的人只看结论,有数据思维的人看产生结论的过程。
回到因子分解。因子分解还有一个数学上的优点,就是提取的几个公共因子之间是相互独立的。也就是说,在数学上保证了它们代表的是不一样的东西。这就把相互纠缠的因素分开了,本质就更易于理解了。从信息的角度看,原来大量的复杂冗余的原始信息就被浓缩精简了。
因为我借用了“把体重分解成脂肪肌肉”这个比喻,也许会让你以为这些公共因子是客观的,已经存在的。其实不是,公共因子是依照统计标准提取出来的,如何解释是一个主观建构的过程。也就是说,因子解释是事后进行的,这个过程有数据的依据,有技能的应用,更是研究者认知水平的反映。
在浪漫爱情的共性部分中提取 6 个因子,是有数据依据的,但是为什么这个因子代表“抗阻力”,那个因子代表“激情”,就有研究者主观参与了。这就是很多人把因子分解方法称为“探索性的方法”的原因。我更想说的是,没有包打天下的技能神器,了解每一种数据技能的优点、缺点、适用条件是非常重要的。
3. 如何进行分解?
最后,如果艺高人胆大,在充分理解现实和数据的基础上,你可以创造性地分解数据,回答别人解决不了的问题。
举一个例子你感受一下:
这一次的任务是,解释已婚男性的工资为什么比单身男性的工资高。已婚男性比单身男性的工资高,这是一个普遍现象。在中国,要高 6.8%。怎么解释呢?
我先讲个段子,再次请出克林顿。有一次,前美国总统克林顿跟妻子希拉里开车外出,途中去加油站,发现加油工人曾经追求过希拉里。于是,克林顿得意地对希拉里说:“幸亏你嫁给了我,要不然你现在就是加油工人的老婆。”希拉里马上回应说:“错,要是我嫁给他,他就是现在的美国总统了。”
这个段子当然是编的,但它其实提供了对结婚男性比单身男性工资高的两种解释:一种是选择效应,指女性在择偶的时候,更愿意找优秀的、工资高的男性,所以这种男性就更容易结婚,那表现出来的现象就是已婚男性工资更高。另一种解释是相夫效应,说的是男性结婚后会得到妻子提供的很多帮助,于是工资会变得更高。
到底哪种解释更有力呢?
显然,我们的任务是分解已婚男和单身男工资差异这个总效应。
分解的难点就在于,数据表明,妻子的受教育程度和工资越高,男性婚后工资就越高。但是,妻子的受教育程度和工资水平,反映了妻子帮助丈夫的能力,同时也反映了她可以找到更优秀的男人的能力,这两个因素混合在一起,就没法说明是选择效应还是相夫效应在起主导作用。这时候,分解的方向是很明确的,可是如何操作实现呢?
研究人员找到了一个巧妙的办法——看妻子的身高。他们认为,如果女性的身材过于矮小,不会影响她相夫教子,但是会影响她选择配偶。比如,身高低于 1 米 5 的女性,找一个有能力的丈夫的可能性就比较小,但是她仍然能帮助丈夫。
于是,他们就统计身高比较矮的妻子的丈夫的工资。如果这些矮妻子的丈夫的工资更低,就说明起主导作用的是选择效应,也就是说,工资高是由丈夫自己优秀导致的。而如果身高不同的妻子,丈夫的工资水平没有差别,就说明选择效应没有起作用。
最后的结果是什么呢?
数据显示,妻子的身高不会影响到已婚男性的工资水平。所以,研究人员得出结论,结了婚的男性工资更高,是相夫效应在起作用。用刚才的段子说就是,希拉里的说法是对的,克林顿的说法是错的。
这个结论你信服吗?不信服也是正常的。因为它有一个假设,就是身高低的女性找到有能力的丈夫的概率更小。但这一点真的成立吗?就仁者见仁了。
不过,我们的重点不是讨论问题的真相,而是介绍分解的思路。在这个案例里面,研究者把妻子的身高当作一个筛选器,高身高组既有选择效应又有相夫效应,而低身高组只有相夫效应,没有选择效应,两者相减就知道选择效应有没有、大不大了。这是一个很有借鉴意义的做法。
这一讲,我们说说如何确定事物之间的因果关系。
我是悦创,我们下一讲见。
划重点:
- 所谓的分解,就是把影响一个复杂事物的各种复杂纠缠的因素分开。通过分解,可以浓缩信息,探究本质。
- 要建立分解的意识,不要一见到差异,就想当然地认为都源于一个单一因素。
- 分解的办法有很多种,因子分解只是其中的一种。每种分解方法都有各自的优点、缺点和适用条件。如果不确定你要解决的问题应该用哪种方法,可以找数据专家咨询。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

更新日志
6bd30-于a3ceb-于482cd-于4ea04-于