25丨KNN(下):如何对手写数字进行识别?

你好,我是悦创。

今天我来带你进行 KNN 的实战。上节课,我讲了 KNN 实际上是计算待分类物体与其他物体之间的距离,然后通过统计最近的 K 个邻居的分类情况,来决定这个物体的分类情况。

这节课,我们先看下如何在 sklearn 中使用 KNN 算法,然后通过 sklearn 中自带的手写数字数据集来进行实战。

之前我还讲过 SVM、朴素贝叶斯和决策树分类,我们还可以用这个数据集来做下训练,对比下这四个分类器的训练结果。

如何在 sklearn 中使用 KNN

在 Python 的 sklearn 工具包中有 KNN 算法。KNN 既可以做分类器,也可以做回归。如果是做分类,你需要引用:


AI悦创原创...大约 10 分钟数据分析数据分析实战 45 讲数据分析数据分析实战 45 讲
01-最近邻算法KNN

在学习机器学习的时候,接触的第一个算法大都是 KNN。不过在介绍之前,请先允许我讲一下个别名词:

  • 交叉验证:将原始数据 随机 分成两组,一组作为训练集,一组作为验证集。训练集训练分类器,验证集验证分类器的效果,并将最后的准确率作为分类器的性能指标。
  • 特征缩放:将特征的取值控制在某一范围内,保证每个特征占据的权重一致。常用的是归一化和标准化。

原理介绍

简言之,KNN 算法计算不同特征值之间的距离对样本进行分类。

OK,说完结论,懂的可以直接看代码部分了,如果不能理解的请听我娓娓道来~现在有这么一组数据


AI悦创原创...大约 8 分钟数据分析机器学习数据挖掘机器学习算法数据分析机器学习数据挖掘机器学习算法
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
img

你好,我是悦创。

今天我来带你进行 KNN 的学习,KNN 的英文叫 K-Nearest Neighbor,应该算是数据挖掘算法中最简单的一种。

我们先用一个例子体会下。

假设,我们想对电影的类型进行分类,统计了电影中打斗次数、接吻次数,当然还有其他的指标也可以被统计到,如下表所示。

img

我们很容易理解《战狼》《红海行动》《碟中谍 6》是动作片,《前任 3》《春娇救志明》《泰坦尼克号》是爱情片,但是有没有一种方法让机器也可以掌握这个分类的规则,当有一部新电影的时候,也可以对它的类型自动分类呢?


AI悦创原创...大约 10 分钟数据分析数据分析实战 45 讲数据分析数据分析实战 45 讲
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
img

你好,我是悦创。

上节课我们讲了决策树,基于信息度量的不同方式,我们可以把决策树分为 ID3 算法、C4.5 算法和 CART 算法。今天我来带你学习 CART 算法。CART 算法,英文全称叫做 Classification And Regression Tree,中文叫做分类回归树。ID3 和 C4.5 算法可以生成二叉树或多叉树,而 CART 只支持二叉树。同时 CART 决策树比较特殊,既可以作分类树,又可以作回归树。

那么你首先需要了解的是,什么是分类树,什么是回归树呢?


AI悦创原创...大约 9 分钟数据分析数据分析实战 45 讲数据分析数据分析实战 45 讲
17丨决策树(上):要不要去打篮球?决策树来告诉你
img

你好,我是悦创。

想象一下一个女孩的妈妈给她介绍男朋友的场景:

女儿:长的帅不帅?

妈妈:挺帅的。

女儿:有没有房子?

妈妈:在老家有一个。

女儿:收入高不高?

妈妈:还不错,年薪百万。

女儿:做什么工作的?

妈妈:IT 男,互联网公司做数据挖掘的。

女儿:好,那我见见。

在现实生活中,我们会遇到各种选择,不论是选择男女朋友,还是挑选水果,都是基于以往的经验来做判断。如果把判断背后的逻辑整理成一个结构图,你会发现它实际上是一个树状图,这就是我们今天要讲的决策树


AI悦创原创...大约 18 分钟数据分析数据分析实战 45 讲数据分析数据分析实战 45 讲
02-标准差和方差「Standard Deviation and Variance」

差的意思是离正常有多远

Deviation just means how far from the normal

标准差

标准差是数值分散的测量。

标准差的符号是 σ (希腊语字母 西格马,英语 sigma)

公式很简单:方差平方根。那么…… "方差是什么?”

方差


AI悦创原创...大约 2 分钟数据分析数据分析
01-平均差「Mean Deviation」

各个数据值离平均值平均有多远

怎样计算

先求数据的平均值……接着求距离……最后求距离的平均!

三部曲:

  • 一、求所有数据值的平均值
  • 二、求每个数据与平均值的距离(用数据值减去平均值,不理正负号)
  • 三、求这些距离的平均

AI悦创原创...大约 7 分钟数据分析数据分析
2-8 【学习任务】动手算两组股票数据的统计指标

任务描述

根据给出的两组股票数据,动手算一下它们的极差、平均差、标准差:

计算完成之后可以判断一下哪一支股票的风险更大呢?

Tips:股票标准差越大,说明价格波动就越大,相对应风险就会更高一些。

  • 极差:max-min

期待你和我一起,用数据解析世界

欢迎关注我公众号:AI悦创,有更多更好玩的等你发现!

公众号:AI悦创【二维码】

AI悦创原创...大约 1 分钟数据分析数据分析
2-7 统计指标:离散趋势

你好,我是悦创。

上节课我们学习了,集中趋势指标,并通过计算平均值、中位数、众数,了解了数据样本的一般水平。这节课,我们学习离散趋势指标,来了解一个数据的内部差异有多大。

什么是离散趋势指标

我以两支股票价格波动数据为例:

image-20220930120439437

可以看到,股票 A,也就是蓝色这条线,它的波动比较平缓。股票 B 也就是橘色的那条,波动比较大。

image-20220930161644073

AI悦创原创...大约 6 分钟数据分析数据分析
2
3