07-映射:数据究竟是什么?

你好,我是悦创。
课程的前 6 讲,我们根本没有讲什么是数据,只是调动你先天的数字感,体会怎么使用数据去思考问题和解决问题。这一讲,我们就正式面对这一模块最核心的问题——数据究竟是什么?
这个问题听起来再简单不过了。但如果你去问一个数据分析师,大概率的,他都很难回答这个问题。逼急了他可能会说,数据就是电子表格里的数字吧。如果你去看数据分析的专著,书里也基本上不回答这个问题。
为什么大家都说不清楚或者避而不谈呢?因为“数据”这个词代表的含义过于丰富,不同层次的用法混杂在一起,以至于造成了混乱。
这一讲,我们就直面这个问题,通过三个要点正本清源地把这些混乱梳理一下。
1. 数据是对现实世界的映射
首先,从数据和实体的关系来看,数据是对现实世界实体的映射。
比如你照镜子,镜子里出现了你美丽的脸庞,镜子中的脸跟你的脸是一种一一对应的关系。——这就叫“映射”。
不过,镜子中的脸仅仅是光的虚像,既不是实体,也不是数据。但如果用手机拍照,那就不一样了。手机中的摄影系统会记录你的长相,并且转换成数字,最终变成一份文件。这份文件中的数据与你的脸是一一对应的。——数据的来源就是这样的。
但是我们再进一步,这些数据真的映射了你的脸的全部吗?仔细想想,并没有。这份数据文件记录的是在当初的拍照条件下你的脸的信息。如果拍照的条件变了,记录下来的数据当然就不一样了。
我们再进一步,限定了条件,就在拍摄的那一刻,照片记录的就是你脸的全部吗?还不是。你的脸是由细胞组成的,细胞是由分子组成的,分子又是由原子组成的。这些组织又是有活性的,细胞在进行新陈代谢,血液系统在有条不紊地工作。所有这一切,这份数据文件中都没有。
所以,这些数据是映射实体而来的,但它们仅仅代表了实体的一部分信息。如果你想知道其他的信息,就要做其他的映射。比如,看冠心病就要用 CT,看心功能要用超声,检查心肌病变要用核磁。这里:CT、超声、核磁,都是映射实体的方式,都能得到同一个实体不同维度的信息。
这也就说明,获取数据的方法决定了我们能获取什么数据。现实世界和数字世界是两个不同的世界,它们之间通过映射建立关联。
以上,就是关于“数据是什么”这个问题的第一点认知——从实体和数据的关系来看,数据是在某种方法之下对实体的数字化表达。
数字如果只是数字,那么是没有价值的。只有数字和现实世界建立了某种映射,那数字便有了价值。——因为有了“映射”,才有了“价值”。——🦉上课添加,日期:2025 年 9 月 15 日
2. 数据需要元数据来说明
数据是“内容本身”,元数据是“关于内容的说明书”。
接下来,我们说第二点:我们需要元数据来说明数据。
我们来看一下数字音乐。它看起来就是一个音频文档,用播放器一播放,我们就能听到一段美妙的声音。
这里的问题是,除了声音本身,你还能知道什么呢?这是你婚礼上的伴奏?还是女儿的第一次演出?还是肖邦的亲自弹奏?不知道。音频本身并不能说明自己是谁、自已从哪里来。
这时候,我们就需要用到一个新的概念——元数据。简单地说,元数据就是对某个对象做出的陈述。
比如,这段音乐是我女儿 2028 年 11 月在北京国家大剧院演出的实况,她弹奏的是钢琴。——这就是陈述。当然,这种自然语言式的备注不便于处理和交流,实际生活中大家使用的元数据是按照国际规则生成的,看起来很结构化。比如:“时间:2028 年 10 月;地点:北京国家大剧院;人物:女儿;乐器:钢琴……”
我再举一个真实的例子你感受一下。咱们平时都听音乐,请问描写一段音乐各个特征的元数据是怎么生成的呢?
美国有一款音乐软件潘多拉(Pandora),相当于我们的 QQ 音乐。它是这么做的:
- 有些特征客观性很强,比如音调、速度、每分钟节拍数、歌手性别等,这些很容易确定;
- 而另一些特征,比如声音特点、乐器失真程度等,主观性特别强,这些特征怎么确定呢?请一组音乐家,让他们对这些特征进行评估,然后再处理合成。潘多拉用了多少元数据来描写一首音乐呢?大约 450 个。
这还不是最惊讶的,据说,Google 描述一张照片的元数据多达 2 万多个。
元数据听起来挺普通的,但实际上非常厉害。
不知道你还记得吗?2013 年,美国出了一件大事。有个叫斯诺登的前美国中情局工作人员,爆料说美国有一个“棱镜计划”在收集所有的通话记录。这还了得!这让高度关注个人隐私的美国人大惊失色,异常愤怒。结果查下来,发现美国情报部门并没有收集通话的内容,收集的只是通话的元数据,就是说明通话在何时、何地、通了多少时间那些记录。
正当美国人长舒一口气,美国媒体又跑出来吓唬人,说别看这些元数据本身看起来人畜无害,但其实它们能得出各种信息。这下,美国人又不淡定了。
举个例子:如果你是一个公众人物,那我就在公开媒体上记录你的行踪。一旦我收集到了你去过的 4 个地方和 4 个时间,我就能知道你的手机号码。知道了你的手机号码,在网上跟你手机号码绑定的所有信息就都知道了。你说元数据厉害不厉害?
当然,这个前提是可以动用各种数据库,有这样权限的人并不多,所以你也不用担心。
- 数据:一张照片。
- 元数据:拍摄时间、地点(GPS)、相机型号、分辨率、摄影师名字。
- 说明:单看照片,你可能只看到一张风景图。但元数据能告诉你这是 2025 年 8 月在巴黎拍的,用的是 iPhone 15,拍摄者是小李。
数据:书的正文内容。
元数据:作者、出版社、出版时间、ISBN、版次。
说明:没有元数据,你只知道这是一本故事书;有了元数据,你才知道它是《哈利·波特》第三部,1999 年出版。
数据:Word 文档的正文。
元数据:创建时间、修改时间、文件大小、作者。
说明:文档本身就是一堆文字,但元数据能告诉你这是昨天晚上编辑的,由“悦创”写的,还保存过 5 次。
- 数据:视频的画面和声音。
- 元数据:时长、分辨率、导演、演员、拍摄地点、标签。
- 说明:看视频你知道剧情,但元数据能告诉你这是 2020 年在上海拍摄的,导演是张艺谋,演员是谁。
数据:商品图片。
元数据:商品标题、价格、库存、销量、评价。
说明:光看图你只看到一双鞋,但元数据让你知道这是 Nike 2025 新款,售价 799 元,销量 3 万双。
👉 总结一句:数据是“内容本身”,元数据是“关于内容的说明书”。
3. 要把数据、数据容器和数据蕴含的信息分开
接下来,我们说第三点:要把数据、数据容器和数据蕴含的信息分开。
为了理解这一点,你需要记住一个模型——葡萄酒模型。葡萄酒这个东西,其实可以分成四件事:
- 第一:酒本身;
- 第二:酒瓶;
- 第三:酒标,就是贴在酒瓶上的标签;
- 第四:喝进去的感觉。
做个类比的话,酒本身就是数据,酒瓶就是数据容器,酒标就相当于元数据。 为什么这么说呢?咱们拆解一下这句话。
首先,酒就是数据,这很好理解吧?不多说了。
其次,酒标上面有品牌名字、年份、产地等,都是在说明这个酒某一方面的特征,所以它就相当于元数据。
最后,我们要重点说一下数据容器。和很多东西一样,数据也需要一个载体来存放。音频文档是一种载体,Excel 电子表格是另一种载体。听起来很简单,但很多时候我们往往会把载体,也就是数据容器,当成数据本身。比如书本,那些纸张是数据吗?其实不是,纸张只是数据容器,纸上的文字才是数据。
混淆数据和数据容器,在口语表达中当然没有问题,但是知道它们的区别才是数据思维好的表现。
- 数据就好比是葡萄酒;
- 元数据记录了数据的各种关键信息,好比是葡萄酒的酒标;
- 而数据容器是用来装数据的,好比是酒瓶。
这个对应关系明白了,那么一瓶葡萄酒的第四部分——喝下去的感觉,又应该怎么理解呢?它对应数据的什么呢?——我把它比喻成数据里蕴含的信息。
举个例子。我在网上看到,有位数据分析师分析了华语唱作人的相关数据,发表了一篇文章叫《华语唱作人词汇量大赏》。什么是唱作人呢?就是指那些创作型歌手,演唱之外,还要自己作曲、填词和制作的人。
这位数据分析师对 55 位著名华语唱作人自己写的歌词进行了用词的频率统计,然后做了一个排行榜。为了公平,每位唱作人都抽取 1 万字,去除重复的词汇之后再进行统计。这样就知道每一位唱作人常用的词汇是什么了。比如周杰伦,他的常用词汇前三名是“爱”、“走”和“我会”。
这还没有结束。分析师还训练了一个模型来感知歌词的情绪。比如:
- “拆开,我的心随你看,满满的都是爱”,被认为是积极情绪;
- “如果以后和好了,看到你朋友不是很尴尬”,就被定性为消极情绪。
问题来了,词汇量最高的歌手是谁呢?
第一名是周延。在一万个字里,他不重复地用了 2282 个词。他的常用词汇前三名是“万岁”、“喊”和“做”。歌词的情绪 67% 是积极的, 33% 是消极的。
我们熟悉的总上不了头条的汪峰老师呢?词汇量是 1039 个,在 55 位唱作人里属于很低的那一档。常用词汇的前三名是“爱”、“妈妈”和“孤独”。歌词的情绪呢?63% 是积极的,37% 是消极的。
我想说的是,这些信息都是被人挖掘的、被人发现的,这些唱作人的创作数据就在那里,并没有自动说“我有这些信息,来使用我吧”,没有。这些数据中蕴含什么信息,是数据使用者的创造,甚至可以说,是在数据使用者与数据之间的互动中出现的。
换句话说,数据仅仅是潜在的信息提供者,处于一种未经处理的原始状态。只有找到各种描写它们特征的办法,你才能让数据开口说话。
到这里,我们感知数据的学习就可以结束了。从下一讲,我们进入课程的新模块——收集数据。
我是悦创,我们下一讲再见。
划重点:
对于“数据究竟是什么”这个问题,我们可以从三个方面来理解:
数据是对现实世界实体的映射,是在某种方法之下对实体的数字化表达。
数据需要元数据来说明、描写和记录它的关键特征。
不要把数据容器和数据本身混淆,也不要以为数据自动蕴含信息。数据中蕴含什么信息,需要有数据思维的人专门处理。
公众号:AI悦创【二维码】

AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」,招收学员面向国内外,国外占 80%。全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh

更新日志
e4647-于4a47a-于07e6d-于d4fd0-于09c6c-于97265-于485c3-于a21fe-于71d00-于a44f6-于70353-于ae8a4-于9bfdc-于4d098-于1c35a-于cbb3a-于76989-于86c50-于027da-于