4分类和预测(1)决策树cyi.pptx

上传人：zhang****gqing

文档编号：91076516

上传时间：2023-05-21

格式：PPTX

页数：53

大小：648.32KB

( 4.5 )

《4分类和预测(1)决策树cyi.pptx》由会员分享，可在线阅读，更多相关《4分类和预测(1)决策树cyi.pptx（53页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第四章第四章分类和预测分类和预测主主讲讲教教师师：魏宏喜：魏宏喜(博士，副教授博士，副教授)E-mail:2第四章分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归3第四章分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归44.1 分类和预测的定义n分类（Classification）q给定一个数据集D=t1,t2,tn和一个类别集合C=C1,C2,Cm，数据数据分类分类就是通过定义一个映射f:DC，为数据集D

2、中的每条数据ti分配C中的一个类Cj。n预测（Prediction）q它是一种分类的泛化，当分类的类别是一个连续值时（可看成无限多类），就是数据数据预测预测。54.1 分类和预测的定义示例n分类q银行贷款员需要分析数据，来弄清哪些贷款申请者是安全的，哪些是有风险的。q构造一个映射（模型模型）将申请者分为两类：n安全安全n有风险有风险n预测q银行贷款员需要分析数据，来预测贷给某个顾客多少钱是安全的。q构造一个映射（模型模型）来预测一个连续值。如何建立具体如何建立具体的映射（模型）？的映射（模型）？64.1 分类和预测的定义n数据分类和预测的步骤如下：q第一步建立模型建立模型q第二步使用模型使用模

3、型n下面以分类分类为例，详细介绍这两个步骤。74.1 分类和预测的定义n第一步建立模型建立模型q训练数据集：由若干数据（通常用n维属性向量表示）和它们相对应的类标号组成。n训练样本：训练数据集中的单个数据及其类标号。q从训练数据集“学习”相关知识来构造分类模型。q分分类类模型模型可能会以分类规则、决策树或数学公式等形式呈现出来。n第二步使用模型使用模型q对未知类别的数据进行分类（分配类别标号）。8第一步建立模型训练数据集分类模型分类模型IF rank=professor OR years 6THEN tenured=yes 分类规则9第二步使用模型分类规则测试数据集未知数据(Jeff,Prof

4、essor,4)Tenured?10第四章分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归114.2 数据分类方法n分类过程的数据预处理n分类的评价标准性能度量12分类过程的数据预处理n在执行分类过程之前，通过对数据进行预处理，可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括：q数据清理q相关分析q数据变换13分类过程的数据预处理n在执行分类过程之前，通过对数据进行预处理，可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括：q数

5、据清理：消除或减少噪声，处理空缺值，从而减少学习时的混乱。q相关分析q数据变换14分类过程的数据预处理n在执行分类过程之前，通过对数据进行预处理，可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括：q数据清理q相关分析：数据中的有些属性可能与当前任务不相关或者是冗余的，则可以删除这些属性以加快学习过程，并使学习结果更精确。n例如：主成分分析（PCA）q数据变换15分类过程的数据预处理n在执行分类过程之前，通过对数据进行预处理，可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括：q数据清理q相关分析q数据变换：数据可以通过规

6、范化，将给定属性的所有值按比例进行缩放，使其落入一个较小的指定区间中。n例如：0.0,1.0（神经网络中常用）。16分类过程的数据预处理n在执行分类过程之前，通过对数据进行预处理，可以提高分类过程的准确性准确性、有效有效性性和可伸缩性可伸缩性。n常用的预处理操作包括：q数据清理q相关分析q数据变换在模式识别领域在模式识别领域特征提取与特征提取与特征选择特征选择17分类的评价标准n假设：给定测试集Xtest=(xi,yi)|i=1,2,NqN表示测试集中的样本个数；qxi表示测试集中第i个样本；qyi表示样本xi的类标号。n对于测试集的第j个类别，分类结果如下：q被正确分类的样本数量为TPj；q

7、被错误分类的样本数量为FNj；q其他类别被错误分类为该类的样本数据量为FPj。18分类的评价标准n精确度（正确率）精确度（正确率）：表示测试集中被正确分类的数据所占的比例。q例如：在文字识别中，经常统计识别正确率识别正确率，以此来表示识别系统的性能。19第四章分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归20决策树n什么是决策什么是决策树树？q由数据的不同属性不同属性逐次划分数据集，直至得到的数据子集数据子集只包含同一类数据为止，这样可形成一棵树，称为决策树。n结构上类似于程序流程图；n每个内部结点

8、表示在一个属性上的测试测试；n每个分枝代表一个测试的输输出出；n每个叶结点存放一个类标类标号号。q由树的根结点到某个叶结点的属性的合取合取可形成一条分类规则；所有规则的析取析取可形成一整套分类规则。21决策树生成生成目标：根据客户的如下属性，目标：根据客户的如下属性，是否有贷款是否有贷款、婚姻状况婚姻状况、收入水平收入水平，来判断客户是否存在，来判断客户是否存在“金融欺骗金融欺骗”行为。行为。如何从训练数据集生成相应决策树，是本节所关注的内容。22决策树分类过程23决策树分类过程24决策树分类过程25决策树分类过程26决策树分类过程27决策树分类过程28决策树属性选择的次序问题哪棵树更好？哪棵

9、树更好？or 哪种次序更好？哪种次序更好？29决策树n决策树关注的主要问题：q决策树的生成算法nID3算法nC4.5算法q决策树的剪枝策略：许多分枝反映的是训练数据集中的噪声和离群点，剪枝试图识别并剪去这种分枝，以提高对未知数据分类的准确性。n先剪枝方法n后剪枝方法30ID3算法n特点：在选择根结点和各个内部结点的分枝属性时，采用信息增益信息增益作为度量标准，因此每次都会选择具有最高信息增益最高信息增益的属性作为分枝属性。qID3算法只能处理属性值为离散型离散型的数据集的划分。31ID3算法n给定数据集X=(xi,yi)|i=1,2,total。qxi(i=1,2,.,total)用d维特征向

10、量xi=(xi1,xi2,.,xid)来表示，xi1,xi2,.,xid分别对应d个属性A1,A2,.,Ad的具体取值；qyi(i=1,2,.,total)表示样本xi的类标号，假设要研究的分类问题有m个类别，则yic1,c2,.,cm。n假设nj是数据集X中属于类别cj的样本数量，则各类别的先先验验概率概率为：n对于数据集X，将其分为m类的期望信息期望信息为：32ID3算法n计算属性Af划分数据集X所得的熵熵：q假设Af有q个不同取值，可按q的不同取值将X划分为q个不同的子集X1,X2,Xs,Xq；q假设ns表示Xs中的样本数量，njs表示Xs中属于类别cj的样本数量，则由属性Af划分数据集

11、X的熵为：q其中：33ID3算法n计算属性Af划分数据集时的信息增益信息增益：q属性的信息增益值越大，表示它的区分度就越高，使用该属性进行分类的效果就越好。qID3算法是通过选择具有最高信息增益最高信息增益的属性作为数据集的划分，从而可创建决策树中的一个结点，根据该属性的不同取值可形成该结点的不同分枝。q再对各分枝中的数据子集进行递归递归划分划分，直至形成叶结点或者某分枝上的所有数据不属于同一类别，但又没有剩余的属性可以进一步划分为止。34ageincomestudentcredit_ratingbuy_computeryouthhighnofairnoyouthhighnoexcellent

12、nomiddle_agedhighnofairyesseniormediumnofairyesseniorlowyesfairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnofairnoyouthlowyesfairyesseniormediumyesfairyesyouthmediumyesexcellentyesmiddle_agedmediumnoexcellentyesmiddle_agedhighyesfairyesseniormediumnoexcellentnoID3算法示例（buy_comp

13、uter）35ID3算法示例（buy_computer）n首先，计算数据集分类所需的期望信息：q在数据集中，给定的样本数量为14，类标号为Yes(表示购买电脑)的样本数量为n1=9，类标号为No(表示不购买电脑)的样本数量为n2=5，因此数据集中两个类别的先验概率分别为：p(Yes)=n1/total=9/14 p(No)=n2/total=5/14q对数据集分类所需的期望信息为：Info(n1,n2)=-p(Yes)*log(p(Yes)-p(No)*log(p(No)=-9/14*log(9/14)-5/14*log(5/14)0.9436ID3算法示例（buy_computer）n其次，

14、计算各属性划分数据集时的信息增益：q先计算属性age的熵。由于属性age有三个不同取值（youth，middle_aged，senior），因此可将数据集划分成三个子集：X1,X2和X3。q对于子集X1(age=youth)，它的样本数量为n1=5，其中类标号为Yes的数量n11=2，类标号为No的数量n12=3，则这两类样本在子集X1中所占的比例分别为：p11=n11/n1=2/5=0.4 p12=n12/n1=3/5=0.6q这样，子集X1的期望信息为：Info(n11,n12)=-p11*log(p11)-p12*log(p12)=-0.4*log(0.4)-0.6*log(0.6)37

15、ID3算法示例（buy_computer）n其次，计算各属性划分数据集时的信息增益：q先计算属性age的熵。由于属性age有三个不同取值（youth，middle_aged，senior），因此可将数据集划分成三个子集：X1,X2和X3。q对于子集X2(age=middle_aged)，它的样本数量为n2=4，其中类标号为Yes的数量n12=4，类标号为No的数量n22=0，则这两类样本在子集X2中所占的比例分别为：p21=n12/n2=4/4=1 p22=n22/n2=0/4=0q这样，子集X2的期望信息为：Info(n12,n22)=-p12*log(p12)-p22*log(p22)=0

16、38ID3算法示例（buy_computer）n其次，计算各属性划分数据集时的信息增益：q先计算属性age的熵。由于属性age有三个不同取值（youth，middle_aged，senior），因此可将数据集划分成三个子集：X1,X2和X3。q对于子集X3(age=senior)，它的样本数量为n3=5，其中类标号为Yes的数量n13=3，类标号为No的数量n23=2，则这两类样本在子集X3中所占的比例分别为：p13=n13/n3=3/5=0.6 p23=n23/n3=2/5=0.4q这样，子集X3的期望信息为：Info(n13,n23)=-p13*log(p13)-p23*log(p23)=

17、-0.6*log(0.6)-0.4*log(0.4)39ID3算法示例（buy_computer）n其次，计算各属性划分数据集时的信息增益：q先计算属性age的熵。由于属性age有三个不同取值（youth，middle_aged，senior），因此可将数据集划分成三个子集：X1,X2和X3。q由于子集X1,X2和X3各自的期望信息分别为Info(n11,n12)，Info(n12,n22)和Info(n13,n23)，因此，属性age划分数据集的熵为：E(age)=5/14*Info(n11,n12)+4/14*Info(n12,n22)+5/14*Info(n13,n23)0.694q计算

18、属性age的信息增益为：Gain(age)=Info(Yes,No)E(age)=0.94 0.694=0.24640ID3算法示例（buy_computer）n其次，计算各属性划分数据集时的信息增益：q按上述方式，可依次计算其他属性的信息增益分别为：nGain(income)=0.029nGain(student)=0.151nGain(credit_rating)=0.048n在4个属性中，age的信息增益最大(0.246)，因此先以该属性来划分数据集。41ID3算法示例（buy_computer）42ID3算法nID3算法的优优点点：qID3算法通常只需要测试一部分属性就可完成对训练数据

19、集的分类。q从ID3算法构建的决策树中，很容易获得相应的决策规则。43ID3算法nID3算法的缺点缺点：qID3算法在选择根节点和内部结点的属性时，使用信息增益作为评价标准。n信息增益更倾向于选择取值种类较多的属性进行划分，而不一定是最最优优属性属性进行划分。qID3算法只能对属性值为离散型的数据集进行划分（构建决策树），不能处理属性值为连续型的数据集。44C4.5算法nC4.5算法使用信信息息增增益益比比来确定分枝属性，能够克服ID3算法使用信息增益时偏向于取值类型较多属性的不足。q属性Af的信息增益比信息增益比的定义为：n其中：当当q的值较大时，就会降低的值较大时，就会降低信息增益比信息增

20、益比。45C4.5算法nC4.5算法既可以处理离散型描述属性，也可以处理连续型描述属性。q当处理离散型属性时，C4.5算法与ID3算法相同；q当处理连续型属性时，C4.5算法需要先将连续型属性转换成离散型属性。46C4.5算法nC4.5算法既可以处理离散型描述属性，也可以处理连续型描述属性。q当处理离散型属性时，C4.5算法与ID3算法相同；q当处理连续型属性时，C4.5算法需要先将连续型属性转换成离散型属性。q对于连续值属性Ac，假设在某个结点上的样本数量为total，则C4.5算法将进行如下操作：n(1)将该结点上的所有样本按照属性的取值由由小小到大到大排序，得到排序结果A1c,A2c,.

21、,Atotalc；47C4.5算法nC4.5算法既可以处理离散型描述属性，也可以处理连续型描述属性。q当处理离散型属性时，C4.5算法与ID3算法相同；q当处理连续型属性时，C4.5算法需要先将连续型属性转换成离散型属性。q对于连续值属性Ac，假设在某个结点上的样本数量为total，则C4.5算法将进行如下操作：n(2)在A1c,A2c,.,Atotalc中生成total-1个分割点其中：第i个(1itotal-1)分割点的取值设置为vi=(Aic+A(i+1)c)/2。48C4.5算法nC4.5算法既可以处理离散型描述属性，也可以处理连续型描述属性。q当处理离散型属性时，C4.5算法与ID

22、3算法相同；q当处理连续型属性时，C4.5算法需要先将连续型属性转换成离散型属性。q对于连续值属性Ac，假设在某个结点上的样本数量为total，则C4.5算法将进行如下操作：n(3)从total-1个分割点中选择最佳分割点。其中：最佳分割点具有最大信息增益比最大信息增益比。49C4.5算法离散化示例n将“buy_computer”中的属性age的取值由youth,middle_aged,senior改为具体年龄32,25,46,56,60,52,42,36,23,51,38,43,41,65，C4.5算法离散化的具体过程。q(1)对年龄序列由小到大排序，新的序列为23,25,32,36,38,

23、41,42,43,46,51,52,56,60,65；q(2)对新的年龄序列生成分割点：由于样本数量为14，因此可生成13个分割点。n例如：第一个分割点为(23+25)/2=24，它可将数据集划分为年龄在区间23,24的样本和在区间(24,65的样本。50C4.5算法离散化示例n将“buy_computer”中的属性age的取值由youth,middle_aged,senior改为具体年龄32,25,46,56,60,52,42,36,23,51,38,43,41,65，C4.5算法离散化的具体过程。q(3)选择最佳分割点。n例如：对于第一个分割点，可以计算得到年龄在区间23,24和(24,6

24、5的样本数量以及每个区间的样本属于各个类别的数量，从而计算第一个分割点的信息增益比信息增益比。n依此方式，计算其他分割点的信息增益比信息增益比，并从中选出具有最大信息增益比最大信息增益比的分割点。51C4.5算法离散化示例n将“buy_computer”中的属性age的取值由youth,middle_aged,senior改为具体年龄32,25,46,56,60,52,42,36,23,51,38,43,41,65，C4.5算法离散化的具体过程。q(4)根据最佳分割点，离散化属性的连续值。n例如：当最佳分割点为37时，数据集中的样本可以根据age取值分成两类，一类是37，另一类是37。q说明：在有些情况下，可能需要确定多个最佳分割点。可以按上述过程获得依次信息增益比最大的分割点、次大的分割点等等。52第四章分类和预测n4.1 分类和预测的定义n4.2 数据分类方法q决策树q神经网络qSVMq贝叶斯网络n4.3 数据预测方法q线性回归q非线性回归演讲完毕，谢谢观看！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 分类预测决策树 cyi

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：4分类和预测(1)决策树cyi.pptx
链接地址：https://www.deliwenku.com/p-91076516.html