2-1 什么是数据

AI悦创原创数据分析数据分析大约 7 分钟...约 2242 字

从认识数据开始

  • 数据分类
  • 统计指标
  • 分布形态
  • 数据分析流程
  • 常用数据分析工具

对于数据分析来说,这是非常基础也很重要的一章。就好比我们学习写作之前,你需要学习基本的遣词造句一样,后续的数据分析内,都用到本文讲到的知识点。

什么是数据

数据是对事物的描述和记录。

其实,我们思考一下,我们日常生活中,到处都充斥着数据。我们在描述的过程中,也无法离开数据。

我们上网,看到的这些网站、网页,它上面都布满了数据。

我们用的报表,文档,甚至看到的菜单等等,都是由数据所组成的

数据的特性

根据数据的计量层次,进一步对数据进行分类;

根据数据的计量层次,我可以从低到高的,对数据进行进一步的分类;

那什么是计量层次呢?我来带大家理解一下。

  • 黄瓜,番茄,森林,书本,无法计算比较,计量层次低
  • 1,2,3, 4,5,这些数据可以计算比较,那么计量层次就高

首先,我们观察第一组数据,黄瓜,番茄,森林,书本,你会发现这样的数据会有一个特点,他是文字描述型的数据。你没有办法对他进行一定顺序的排序,或者是大小的比较。那对于这样的数据来说:我无法进行计算比较的数据,我们就说这是计量层次比较低的数据类型。

那对于数值型的,1,2,3, 4,5,这样的数据,它们很明显可以进行排序,计算差异,做加减乘除,做比较。那么我们就会说,这样的数据,它的计量层次是比较高的。

定类数据

image-20220812210420366
image-20220812210420366
  • 颜色:红色、白色、黄色
  • 性别:男性、女性
  • 职位:数据产品经理、数据运营、市场营销运营

观察一下,上面的数据有什么特点?

你会发现,给的这几组数据,它们之间会按照:

  • 按照数据的类别进行分类的,各类之间是平等并列的;
  • 比如:红色、白色、黄色,红色是否优于白色,或者劣于黄色,你是没有办法进行这样的排序吧。
  • 这一类的数据,我们叫做定类数据。
  • 这种数据没有数量信息,并且不能在各类别间,进行排序。
  • 针对于这些数据,我们通常想要去计算的话,就是统计每一个类别它们的频数「次」和频率。

定序数据

image-20220814170328158
image-20220814170328158
  • 受教育程度:小学,初中,高中,大学,硕士,博士
  • 季度:春,夏,秋,冬
  • 等级:合格、良好、优秀

你可以观察到,这几组数据。受教育程度,季度,等级,你可以观察到,这几组数据和我们的定类数据,有个共同点,都是文字描述型的数据。

但是,又有些不同。

  • 你会发现,这些数据之间是可以进行排序的,可以去比较优劣的。
  • 比如受教育程度:小学,初中,高中,大学,硕士,博士,它是按照受教育的程度「先后」来进行排序的。
  • 季度上按照时间的标准去排序的;
  • 等级是按照成绩的大小去排序的「合格、良好、优秀」;
  • 这也是说,在实际的使用过程中,我们不但能文字描述,进行基础的排序。我们也可以通过对文字进行对应的 数字编码 进行一个默认的大小排序。
  • 比如说:小学我分配的编码是 01、初中:02、高中:03、大学:04、硕士:05、博士:06,那么通过编码的方式,我们可以很方便的对它们进行排序。

定距数据

image-20220814234018374
image-20220814234018374
  • 温度:20º、50º、100º
  • 成绩:50、65、70、100
  • 年龄:8、25、40、60

我们可以观察一下,上面的数据,你会发现:从这一组数据开始,数据开始变为数值型的数据。也就是说,它是具有一定单位的实际测量值。比如温度,它的单位是度。成绩它的单位是分数。年龄它的单位是年。

而对于这样的数据,它的精确性一定是比前面定类和定序数据要更高的。

对于这些数据,我们不仅仅可以做排序、大小比较、我们也可以做简单的加减运算。

定比数据

image-20220815203525398
image-20220815203525398
  • 利润:10万、20万、30万
  • 薪酬:3000、6000、9000、12000
  • 用户数:210、3500、49000

对于这些数据,它们不但可以进行大小的比较、排序、加、减、乘、除运算。那这个时候,我们回忆一下,刚刚讲到的定距数据,你会发现它是没办法做乘除运算的,比如说:针对于温度,你可以说今天的温度比昨天的温度高20º或者低20º,但是你不能将两个温度的变量去做乘除运算,它们产生不出任何意义。

那这个是什么情况?这是因为,对于定距数据中,在定距尺度中,0 是表示一个数值,而在定比数据中,0 代表没有。

比如,在定距数据中以温度为例 0 度就是表示 0º ,我每一个数值,它后面每一个单位都是相同的,它表示的含义都是一样的。

而在于定比数据中,它是有一个所谓绝对零点的存在,我如果是 0 就是没有,那这样的特性,可以让它去做任何的数学运算。

当你拿到一个数值型的数据时,你可以思考一下,它到底属于定比数据还是定距数据。——那其中的关键点就是刚刚聊到的,绝对 0 点。如果存在绝对 0 点,那它就是定比,如果不存在,就是定距。

定性、定量数据

image-20220815212007293
image-20220815212007293

我们来总结一下,我们聊到的四个数据,它可以统称为:定性数据和定量数据。

  • 定性数据(定类数据「对事物数据进行分类」、定序数据「对事物进行排序或有一个默认标准的顺序」)
    • 是一组表示事物性质、规定事物类别的文字表述型
  • 定类数据(定距数据、定比数据)->都可以直接进行数学运算的
    • 指以数量形式存在着的属性,并因此可以对其进行测量的数值型数据

数据矩阵/二维数据表

上面的数据,以一定标准组成起来的时候,就组成了数据矩阵。——也就是我们经常接触到的二维数据表。

image-20220815221122465
image-20220815221122465

我们把数据表横的一行,称为观测值或者说记录。

image-20220815221216161
image-20220815221216161

我们把数据表开头的,第一行的数据「列表字段」称为我们的数据属性或者数据纬度。

image-20220815221351377
image-20220815221351377

而这也是我们展现数据的主要方式,

章节回顾

image-20220815221602039
image-20220815221602039
  1. 什么是数据
  2. 数据的类型
    1. 定类数据 => 定性数据
    2. 定序数据 => 定性数据
    3. 定距数据 => 定量数据
    4. 定比数据 => 定量数据
  3. 数据矩阵是怎么组成的

课后作业

image-20220815221832865
image-20220815221832865

基于上面的二维数据表,大家观察一下,第一列的列字段,也就是我们的数据属性、数据维度。请告诉我:它们对应的数据类型时哪一个。

image-20220815223913656
image-20220815223913656

期待你和我一起,用数据解析世界

欢迎关注我公众号:AI悦创,有更多更好玩的等你发现!

公众号:AI悦创【二维码】

AI悦创·编程一对一

AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发」,全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh

C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh

方法一:QQopen in new window

方法二:微信:Jiabcdefh

上次编辑于:
贡献者: AndersonHJB,AI悦创
你认为这篇文章怎么样?
  • 0
  • 0
  • 0
  • 0
  • 0
  • 0
评论
  • 按正序
  • 按倒序
  • 按热度