2-1 什么是数据
1. 从认识数据开始
- 数据分类
- 统计指标
- 分布形态
- 数据分析流程
- 常用数据分析工具
对于数据分析来说,这是非常基础也很重要的一章。就好比我们学习写作之前,你需要学习基本的遣词造句一样,后续的数据分析内,都用到本文讲到的知识点。
2. 什么是数据
数据是对事物的描述和记录。
其实,我们思考一下,我们日常生活中,到处都充斥着数据。我们在描述的过程中,也无法离开数据。
我们上网,看到的这些网站、网页,它上面都布满了数据。
我们用的报表,文档,甚至看到的菜单等等,都是由数据所组成的
3. 数据的特性
根据数据的计量层次,进一步对数据进行分类;
根据数据的计量层次,我可以从低到高的,对数据进行进一步的分类;
那什么是计量层次呢?我来带大家理解一下。
- 黄瓜,番茄,森林,书本,无法计算比较,计量层次低
- 1,2,3, 4,5,这些数据可以计算比较,那么计量层次就高
首先,我们观察第一组数据,黄瓜,番茄,森林,书本,你会发现这样的数据会有一个特点,他是文字描述型的数据。你没有办法对他进行一定顺序的排序,或者是大小的比较。那对于这样的数据来说:我无法进行计算比较的数据,我们就说这是计量层次比较低的数据类型。
那对于数值型的,1,2,3, 4,5,这样的数据,它们很明显可以进行排序,计算差异,做加减乘除,做比较。那么我们就会说,这样的数据,它的计量层次是比较高的。
4. 定类数据
- 颜色:红色、白色、黄色
- 性别:男性、女性
- 职位:数据产品经理、数据运营、市场营销运营
观察一下,上面的数据有什么特点?
你会发现,给的这几组数据,它们之间会按照:
- 按照数据的类别进行分类的,各类之间是平等并列的;
- 比如:红色、白色、黄色,红色是否优于白色,或者劣于黄色,你是没有办法进行这样的排序吧。
- 这一类的数据,我们叫做定类数据。
- 这种数据没有数量信息,并且不能在各类别间,进行排序。
- 针对于这些数据,我们通常想要去计算的话,就是统计每一个类别它们的频数「次」和频率。
5. 定序数据
- 受教育程度:小学,初中,高中,大学,硕士,博士
- 季度:春,夏,秋,冬
- 等级:合格、良好、优秀
你可以观察到,这几组数据。受教育程度,季度,等级,你可以观察到,这几组数据和我们的定类数据,有个共同点,都是文字描述型的数据。
但是,又有些不同。
- 你会发现,这些数据之间是可以进行排序的,可以去比较优劣的。
- 比如受教育程度:小学,初中,高中,大学,硕士,博士,它是按照受教育的程度「先后」来进行排序的。
- 季度上按照时间的标准去排序的;
- 等级是按照成绩的大小去排序的「合格、良好、优秀」;
- 这也是说,在实际的使用过程中,我们不但能文字描述,进行基础的排序。我们也可以通过对文字进行对应的 数字编码 进行一个默认的大小排序。
- 比如说:小学我分配的编码是 01、初中:02、高中:03、大学:04、硕士:05、博士:06,那么通过编码的方式,我们可以很方便的对它们进行排序。
6. 定距数据
- 温度:20º、50º、100º
- 成绩:50、65、70、100
- 年龄:8、25、40、60
我们可以观察一下,上面的数据,你会发现:从这一组数据开始,数据开始变为数值型的数据。也就是说,它是具有一定单位的实际测量值。比如温度,它的单位是度。成绩它的单位是分数。年龄它的单位是年。
而对于这样的数据,它的精确性一定是比前面定类和定序数据要更高的。
对于这些数据,我们不仅仅可以做排序、大小比较、我们也可以做简单的加减运算。
7. 定比数据
- 利润:10万、20万、30万
- 薪酬:3000、6000、9000、12000
- 用户数:210、3500、49000
对于这些数据,它们不但可以进行大小的比较、排序、加、减、乘、除运算。那这个时候,我们回忆一下,刚刚讲到的定距数据,你会发现它是没办法做乘除运算的,比如说:针对于温度,你可以说今天的温度比昨天的温度高20º或者低20º,但是你不能将两个温度的变量去做乘除运算,它们产生不出任何意义。
那这个是什么情况?这是因为,对于定距数据中,在定距尺度中,0 是表示一个数值,而在定比数据中,0 代表没有。
比如,在定距数据中以温度为例 0 度就是表示 0º ,我每一个数值,它后面每一个单位都是相同的,它表示的含义都是一样的。
而在于定比数据中,它是有一个所谓绝对零点的存在,我如果是 0 就是没有,那这样的特性,可以让它去做任何的数学运算。
当你拿到一个数值型的数据时,你可以思考一下,它到底属于定比数据还是定距数据。——那其中的关键点就是刚刚聊到的,绝对 0 点。如果存在绝对 0 点,那它就是定比,如果不存在,就是定距。
8. 定性、定量数据
我们来总结一下,我们聊到的四个数据,它可以统称为:定性数据和定量数据。
- 定性数据(定类数据「对事物数据进行分类」、定序数据「对事物进行排序或有一个默认标准的顺序」)
- 是一组表示事物性质、规定事物类别的文字表述型
- 定类数据(定距数据、定比数据)->都可以直接进行数学运算的
- 指以数量形式存在着的属性,并因此可以对其进行测量的数值型数据
数据矩阵/二维数据表
上面的数据,以一定标准组成起来的时候,就组成了数据矩阵。——也就是我们经常接触到的二维数据表。
我们把数据表横的一行,称为观测值或者说记录。
我们把数据表开头的,第一行的数据「列表字段」称为我们的数据属性或者数据纬度。
而这也是我们展现数据的主要方式,
章节回顾
- 什么是数据
- 数据的类型
- 定类数据 => 定性数据
- 定序数据 => 定性数据
- 定距数据 => 定量数据
- 定比数据 => 定量数据
- 数据矩阵是怎么组成的
课后作业
基于上面的二维数据表,大家观察一下,第一列的列字段,也就是我们的数据属性、数据维度。请告诉我:它们对应的数据类型时哪一个。
期待你和我一起,用数据解析世界
欢迎关注我公众号:AI悦创,有更多更好玩的等你发现!
公众号:AI悦创【二维码】
AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发」,全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh
- 0
- 0
- 0
- 0
- 0
- 0