08-类型:为什么要对数据区别对待?

你好,我是悦创。
从这一讲开始,我们进入课程的新模块——收集数据。数据不是从天上掉下来的,需要先有数据,然后才能分析数据,所以收集数据是免不了的重要一环。这个模块,我们就详细讨论收集数据的各种方法。
提到数据,很多人的反应就是,不就是一堆大大小小的数字吗?除了大小不同,数据不都一样吗?如果你也这么觉得,那就说明你对数据的理解还很不到位。
所以,在讨论收集数据的各种方法之前,我们得先解决两个基础性问题。还记得上一讲的葡萄酒模型吗?数据是酒,数据载体是酒瓶,元数据是酒标。现在两个基础性的问题就是:
一:数据收集之后放在哪里呢?换句话说,数据世界的酒瓶是什么样子的呢?
二:数据是否有不同的类型呢?如果用酒来打比方的话,除了葡萄酒,还有没有啤酒白酒呢?
搞清楚了这两个问题,以后你再看到数据时,就能马上知道它代表什么意义、分辨出它是哪一类型的,也就不会再发懵了。
1. 收集到的数据用什么装起来?
我们先说第一个问题:收集到的数据用什么装起来呢?
直接说答案,变量。收集到的数据用变量这种东西装起来。
比如,我们收集了 AI悦创科技员工的年龄,小悦,29 岁;小杨,25 岁……收集好之后,把这些数据排成一列。这一列数据就是一个变量。给这个变量起一个名字,就叫“年龄变量”。
如果不写个说明,变量放久了很容易就会忘掉,这个就叫“变量说明”。变量说明包括变量的名称、定义、测量方式、编码规则等,具体来说明这个变量代表什么信息。比如上面提到的年龄变量,它的说明可能是这样的,“以年为单位,以身份证记载的日期为准”。
有了年龄变量,年龄这一组数据就可以很方便地储存、转移和使用了。
但是,只知道 AI悦创科技员工的年龄是不够的,我们还想要其他的信息,比如性别、收入、职级等。怎么办呢?那就分别收集这些数据,制作性别变量、收入变量、职级变量。如果说年龄变量是一瓶酒,那这些新的变量也都是一瓶一瓶的酒。现在,我们就有了很多瓶酒。
这时候,一个新的概念出现了——酒窖,储存很多酒瓶的地方。这个数据酒窖真实的样子长什么样呢?最常见的就是 Excel 电子表格。这个表格有很多行,很多列。通常来说:
- 行代表 ID:对 AI悦创科技员工的数据来说,行就是一个一个人,小悦占一行,小杨占一行。
- 列代表 Type:列就是一个一个变量,年龄、性别、收入、职级等。
有了这个电子表格,我们处理数据就很方便了。比如现在问:AI悦创科技员工的年龄和收入有没有关系啊?那就从表格中调出年龄变量和收入变量,计算一下这两个变量的相关系数,答案就有了。
稍微多说一句,表格只是酒窖的一种样子,也有其他数据库储存数据的方式,比如一个大酒池子也是可以的。不过,对于数据使用者而言,理解酒窖就像表格那样也就够用了。
简单小结一下:
现在我们有了三层概念——数据、变量和表格。
- 数据的级别最低,是一个变量的具体值;
- 变量是一组数据的集合,代表事物一个维度的信息;
- 表格的级别最高,是各个变量,也就是事物各个维度信息的集合。
这里有一点要反复强调:变量变量,它的本质就是一个量。也就是说,变量里面只能是数字。
这时候,就出现了一点小麻烦。性别,这是人的某一方面的信息吧?这个信息必须有吧?但性别要么是男性,要么是女性,这不是数字。可变量是个数字容器,又只能装数字。怎么办呢?
这时候,一个新概念出现了,叫“编码”。编码的意思就是,我们规定男性编码为 1,女性编码为 0。
- 如果这个人是男性,性别变量的数值就是 1;
- 如果这个人是女性,性别变量的数值就是 0。
于是,小麻烦解决了。变量里装的还是数字,只不过数字的含义是被编码规则定义的。
有同学可能会问,为什么一定要把男性编码为 1 呢?可不可以反过来把男性编码为 0,女性编码为 1 呢?当然可以。不但可以,你还可以把男性编码为 250,把女性编码为 666666。你想怎么编就怎么编。这是你的权利。
不过,有权利就有义务。虽然你有任意编码的权利,但也有尊重行业习惯、方便理解交流、有利后期处理、节省相关资源的义务。你非要把男女编码为 250 和 666666,占用了不必要的储存空间,让外人不容易理解,还不利于后期处理,过程中还容易出错,那又何必呢?
2. 数据有哪些类型?
搞明白了这一点,我们接下来说说第二个基础性的问题:数据有没有不同的类型呢?
咱们知道,酒是有不同的类型的,什么葡萄酒、白酒、啤酒等。数据也是一样,它也有自己的类型。而且,别看现实世界的数据千差万别,但其实它们都可以归为四类,分别是类别数据、次序数据、间隔数据和比例数据。
听起来有很多陌生名词,好像很难记。为了降低你学习的难度,我就借用《西游记》来帮你理解这四种数据类型。《西游记》里,取经的队伍就是四位,正好一一对应这四种数据。
2.1 第一种:类别数据,也可以叫“唐僧数据”

我们知道,唐僧的思维是非此即彼的,会给所有的东西分类,不是行,就是不行,不是好人,就是坏人,没有中间状态。类别数据也是这样,这种变量里装的数据都是表示类别的。典型的就是性别,相同的还有民族、婚姻状况、申请还是没有申请过房贷、出过国没有出过国等,都是类别数据。
虽然“类别”这个概念挺简单,但还是要提示一点——设定的类别既要完备,又要排他。
举个例子:
我们填各种表时,经常有一项“婚姻状况”,一般会有四个选项——未婚、已婚、离婚和丧偶。
“完备”的意思是说,这四种情况是不是包括婚姻状况的所有可能呢?如果没有,那就要增加。近年来,我国社会调查都会加一个选项,那就是“同居”。
而“排他”的意思是,两个类别之间不能有交叉的情况。增加了“同居”这个选项之后,就会有一个疑问,之前同居 10 年现在分手了,是该填未婚啊,还是填离婚啊?如果不做好规定,有人就会填未婚,有人就会填离婚,那就乱了。这就是选项之间不排他导致的。
2.2 第二种:次序数据,也叫“沙和尚数据”
为什么叫沙和尚数据呢?因为沙和尚工作都要找领导。
- 唐僧在的时候,就找唐僧;
- 唐僧被抓了,就找大师兄孙悟空;
- 孙悟空不在了,就找二师兄猪八戒;
- 你看,特别有次序。

比如这样提问:“一个女性要有一个孩子”这件事对你来说,是非常重要、重要、无所谓、不重要,还是非常不重要呢?这个问题测量出来的结果就是次序数据。
本质上:次序数据还是类别数据,但是多了一个大小顺序的信息。
注意:只是说几个选项是有顺序的,也就是谁在前、谁在后,而不关心选项之间差距的大小是不是相同。就像刚才那个问题,回答“非常重要”和“重要”之间、“重要”和“无所谓”之间,程度是不是相同,是没有办法知道的。
2.3 第三种:间隔数据,也可以叫“猪八戒数据”

猪八戒有一个著名的武器——九齿钉耙,九个齿就有 8 个间隔,每一个间隔都是相等的。这就是间隔数据,数字之间的距离是相等的。
最典型的间隔数据就是智商(IQ 值)。智商可以有 90、100、110 等,90 和 100 之间、100 和110 之间,距离是相等的。
这种数据唯一的问题就是,0 这个数据的意义不明确。比如:一个人的智商数字是 0,能代表这个人完全没有智力吗?显然不能。
2.4 第四种:比例数据,也可以称为“孙悟空数据”

为什么是孙悟空呢?因为孙悟空的武器是金箍棒,可以任意放大缩小。
比例数据的特征是,不但间隔是确定的,而且 0 这个数字表示的就是真的 0。收入数据就很典型,月收入 1 万就是比月收入 5 千的多一倍,收入为 0 就是什么收入都没有。
小结一下:数据一共有四种类型,分别是类别数据、次序数据、间隔数据和比例数据,分别对应唐僧、沙和尚、猪八戒和孙悟空。这样就容易记忆了。
2.5 定性、定量数据

我们来总结一下,我们聊到的四个数据,它可以统称为:定性数据和定量数据。
定性数据(定类数据「对事物数据进行分类」、定序数据「对事物进行排序或有一个默认标准的顺序」)
- 是一组表示事物性质、规定事物类别的文字表述型
定性数据:是一组表示事物性质、规定事物类别的文字表述型数据。「定类数据、定序数据」
定类数据(定距数据、定比数据)——>都可以直接进行数学运算的
- 指以数量形式存在着的属性,并因此可以对其进行测量的数值型数据
定量数据:是指以数量形式存在着的属性,并因此可以对其进行测量。「定距数据、定序数据」
3. 了解数据类型的作用
了解数据类型有什么用呢?我认为,至少有三方面的用处。
3.1 第一:知道这四种数据是向下兼容的
比如收入数据,本来是比例数据,但如果把收入划分成四个档次——贫困人口、工薪阶层、中产阶级和富人群体,比例数据就变成了次序数据。但是,反过来就不行。先有工薪阶层、中产阶级这些类别,就没有办法转化为收入的具体数据。——这就叫向下兼容。
向下兼容的本质是说:
- 从类别数据、次序数据到间隔数据、比例数据,越往后,数据拥有的信息越多;
- 而从比例数据变到间隔数据、次序数据,甚至类别数据,就是一个丢失信息的过程。
- 这也给我们一个提示:收集数据的时候,尽量多收集比例数据,以后需要的话可以向下变换。
3.2 第二:明白数据的类型不同,数据处理的方法就不同
比如,悦创员工的收入情况,这是比例数据,我们就可以计算平均值,看看大家的平均收入。但如果是悦创员工的性别呢?这是类别数据,计算平均性别就很荒谬了。
3.3 第三点:只有深刻理解数据类型的意义,才会充分地利用其中蕴含的信息
虽然刚才说尽量多收集比例数据,但也不是说比例数据就比其他数据更好。每一种类型的数据都有它的用处,这里没有鄙视链。
现在已经进入了大数据时代,大量的数据都是类别数据,比如打开还是关闭,看文章是不是刷到了最后一行等。把这些数据组合起来,同样能提供大量的信息。
4. 思考题
最后,给你留一道思考题:
现在,我们有了某生殖医学中心 2019 年出生的试管婴儿的性别数据,在男性编码为 1,女性编码为 0 的情况下,把这些数加起来除以总的试管婴儿出生数,假设结果是 0.25。请问,这算出来的是平均性别吗?它还代表哪些信息呢?
欢迎把你的答案写在留言区。
严格来说,不是“平均性别”。因为“性别”是一个类别数据,类别数据本身不具备计算平均值的意义。把它编码成数字,只是为了便于统计和处理。
虽然它不是“平均性别”,但它有明确的统计意义。
在男性 = 1,女性 = 0 的编码规则下:
- 0.25 表示男性比例为 25%,女性比例为 75%。
- 换句话说,在这家生殖医学中心,2019 年出生的试管婴儿里,每 4 个孩子大约有 1 个男孩,3 个女孩。
这个结果还能代表:
- 性别比例结构:揭示群体中男女分布的情况;
- 概率意义:如果随机选取一个试管婴儿,抽到男性的概率约为 0.25;
- 对比研究的基准:比如,和自然生育的性别比(通常接近
51%:49%)相比,能发现试管婴儿群体是否存在性别分布的差异。
这个 0.25 不是“平均性别”,而是“男性出生比例”。它反映了群体中性别分布的概率特征,而不是性别的平均值。
第一步:明确性质
- 性别是 类别数据,不能直接计算“平均值”。
- 这里的“0.25”严格来说 不是平均性别。
第二步:解释含义
- 在男性 = 1、女性 = 0 的编码规则下:
- 0.25 表示 男性占比 25%;
- 同时也意味着 女性占比 75%。
第三步:进一步延伸
- 这不是“平均性别”,而是一个 比例/概率:
- 群体结构:说明这个出生人群中,男女比例严重偏向女性。
- 概率意义:随机抽一个婴儿,抽到男性的概率为 25%。
- 对比研究:与自然生育的性别比(约 51% 男 vs 49% 女)相比,可以发现差异。
这道题算出来的 不是平均性别,因为性别是类别数据,平均值没有实际意义。结果 0.25 的真正含义是男性比例为 25%,也就是说在所有试管婴儿中,男性只有四分之一,女性则占四分之三。这个数值反映了群体中性别分布的概率特征,也可以作为对比研究的依据。
有了这一讲的预备知识,我们就可以通过测量去收集数据,拼凑对于事物的各种认知了。下一讲,我们说说在测量的时候应该注意的三个要点。
我是悦创,我们下一讲见。
划重点:
数据、变量和表格是三个不同层次的概念。数据是一个变量的具体值,变量代表一个维度的信息,表格是各种维度信息的集合。
数据一共有四种类型,分别是类别数据、次序数据、间隔数据和比例数据,分别对应唐僧、沙和尚、猪八戒和孙悟空。
数据类型不同,处理数据的方法就不同。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

更新日志
e4647-于2842d-于d454c-于71c68-于916ca-于b2a84-于5b0a7-于55917-于904bf-于454bf-于88593-于91371-于4f5da-于4a47a-于