4分类和预测(1)决策树cyi.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《4分类和预测(1)决策树cyi.pptx》由会员分享,可在线阅读,更多相关《4分类和预测(1)决策树cyi.pptx(53页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第四章第四章 分类和预测分类和预测主主讲讲教教师师:魏宏喜:魏宏喜(博士,副教授博士,副教授)E-mail:2第四章 分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归3第四章 分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归44.1 分类和预测的定义n分类(Classification)q给定一个数据集D=t1,t2,tn和一个类别集合C=C1,C2,Cm,数据数据分类分类就是通过定义一个映射f:DC,为数据集D
2、中的每条数据ti分配C中的一个类Cj。n预测(Prediction)q它是一种分类的泛化,当分类的类别是一个连续值时(可看成无限多类),就是数据数据预测预测。54.1 分类和预测的定义示例n分类q银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的。q构造一个映射(模型模型)将申请者分为两类:n安全安全n有风险有风险n预测q银行贷款员需要分析数据,来预测贷给某个顾客多少钱是安全的。q构造一个映射(模型模型)来预测一个连续值。如何建立具体如何建立具体的映射(模型)?的映射(模型)?64.1 分类和预测的定义n数据分类和预测的步骤如下:q第一步建立模型建立模型q第二步使用模型使用模
3、型n下面以分类分类为例,详细介绍这两个步骤。74.1 分类和预测的定义n第一步建立模型建立模型q训练数据集:由若干数据(通常用n维属性向量表示)和它们相对应的类标号组成。n训练样本:训练数据集中的单个数据及其类标号。q从训练数据集“学习”相关知识来构造分类模型。q分分类类模型模型可能会以分类规则、决策树或数学公式等形式呈现出来。n第二步使用模型使用模型q对未知类别的数据进行分类(分配类别标号)。8第一步建立模型训练数据集分类模型分类模型IF rank=professor OR years 6THEN tenured=yes 分类规则9第二步使用模型分类规则测试数据集未知数据(Jeff,Prof
4、essor,4)Tenured?10第四章 分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归114.2 数据分类方法n分类过程的数据预处理n分类的评价标准性能度量12分类过程的数据预处理n在执行分类过程之前,通过对数据进行预处理,可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括:q数据清理q相关分析q数据变换13分类过程的数据预处理n在执行分类过程之前,通过对数据进行预处理,可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括:q数
5、据清理:消除或减少噪声,处理空缺值,从而减少学习时的混乱。q相关分析q数据变换14分类过程的数据预处理n在执行分类过程之前,通过对数据进行预处理,可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括:q数据清理q相关分析:数据中的有些属性可能与当前任务不相关或者是冗余的,则可以删除这些属性以加快学习过程,并使学习结果更精确。n例如:主成分分析(PCA)q数据变换15分类过程的数据预处理n在执行分类过程之前,通过对数据进行预处理,可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括:q数据清理q相关分析q数据变换:数据可以通过规
6、范化,将给定属性的所有值按比例进行缩放,使其落入一个较小的指定区间中。n例如:0.0,1.0(神经网络中常用)。16分类过程的数据预处理n在执行分类过程之前,通过对数据进行预处理,可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括:q数据清理q相关分析q数据变换在模式识别领域在模式识别领域特征提取与特征提取与特征选择特征选择17分类的评价标准n假设:给定测试集Xtest=(xi,yi)|i=1,2,NqN表示测试集中的样本个数;qxi表示测试集中第i个样本;qyi表示样本xi的类标号。n对于测试集的第j个类别,分类结果如下:q被正确分类的样本数量为TPj;q
7、被错误分类的样本数量为FNj;q其他类别被错误分类为该类的样本数据量为FPj。18分类的评价标准n精确度(正确率)精确度(正确率):表示测试集中被正确分类的数据所占的比例。q例如:在文字识别中,经常统计识别正确率识别正确率,以此来表示识别系统的性能。19第四章 分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归20决策树n什么是决策什么是决策树树?q由数据的不同属性不同属性逐次划分数据集,直至得到的数据子集数据子集只包含同一类数据为止,这样可形成一棵树,称为决策树。n结构上类似于程序流程图;n每个内部结点
8、表示在一个属性上的测试测试;n每个分枝代表一个测试的输输出出;n每个叶结点存放一个类标类标号号。q由树的根结点到某个叶结点的属性的合取合取可形成一条分类规则;所有规则的析取析取可形成一整套分类规则。21决策树生成生成目标:根据客户的如下属性,目标:根据客户的如下属性,是否有贷款是否有贷款、婚姻状况婚姻状况、收入水平收入水平,来判断客户是否存在,来判断客户是否存在“金融欺骗金融欺骗”行为。行为。如何从训练数据集生成相应决策树,是本节所关注的内容。22决策树分类过程23决策树分类过程24决策树分类过程25决策树分类过程26决策树分类过程27决策树分类过程28决策树属性选择的次序问题哪棵树更好?哪棵
9、树更好?or 哪种次序更好?哪种次序更好?29决策树n决策树关注的主要问题:q决策树的生成算法nID3算法nC4.5算法q决策树的剪枝策略:许多分枝反映的是训练数据集中的噪声和离群点,剪枝试图识别并剪去这种分枝,以提高对未知数据分类的准确性。n先剪枝方法n后剪枝方法30ID3算法n特点:在选择根结点和各个内部结点的分枝属性时,采用信息增益信息增益作为度量标准,因此每次都会选择具有最高信息增益最高信息增益的属性作为分枝属性。qID3算法只能处理属性值为离散型离散型的数据集的划分。31ID3算法n给定数据集X=(xi,yi)|i=1,2,total。qxi(i=1,2,.,total)用d维特征向
10、量xi=(xi1,xi2,.,xid)来表示,xi1,xi2,.,xid分别对应d个属性A1,A2,.,Ad的具体取值;qyi(i=1,2,.,total)表示样本xi的类标号,假设要研究的分类问题有m个类别,则yic1,c2,.,cm。n假设nj是数据集X中属于类别cj的样本数量,则各类别的先先验验概率概率为:n对于数据集X,将其分为m类的期望信息期望信息为:32ID3算法n计算属性Af划分数据集X所得的熵熵:q假设Af有q个不同取值,可按q的不同取值将X划分为q个不同的子集X1,X2,Xs,Xq;q假设ns表示Xs中的样本数量,njs表示Xs中属于类别cj的样本数量,则由属性Af划分数据集
11、X的熵为:q其中:33ID3算法n计算属性Af划分数据集时的信息增益信息增益:q属性的信息增益值越大,表示它的区分度就越高,使用该属性进行分类的效果就越好。qID3算法是通过选择具有最高信息增益最高信息增益的属性作为数据集的划分,从而可创建决策树中的一个结点,根据该属性的不同取值可形成该结点的不同分枝。q再对各分枝中的数据子集进行递归递归划分划分,直至形成叶结点或者某分枝上的所有数据不属于同一类别,但又没有剩余的属性可以进一步划分为止。34ageincomestudentcredit_ratingbuy_computeryouthhighnofairnoyouthhighnoexcellent
12、nomiddle_agedhighnofairyesseniormediumnofairyesseniorlowyesfairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnofairnoyouthlowyesfairyesseniormediumyesfairyesyouthmediumyesexcellentyesmiddle_agedmediumnoexcellentyesmiddle_agedhighyesfairyesseniormediumnoexcellentnoID3算法示例(buy_comp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 预测 决策树 cyi
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内