[计算机软件及应用]主成分分析ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《[计算机软件及应用]主成分分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《[计算机软件及应用]主成分分析ppt课件.ppt(47页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第第5 5节节 主成分分析主成分分析 主成分分析的基本原理主成分分析的基本原理 主成分分析的计算步骤主成分分析的计算步骤 主成分分析方法应用实例主成分分析方法应用实例 图 地理数据立方体 地理系统是多要素的复杂系统。在地理地理系统是多要素的复杂系统。在地理学研究中,学研究中,多变量多变量问题是经常会遇到的。变问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,性,而且在许多实际问题中,多个变量之间多个变量之间是具有一定的相关关系的。是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相因此,人们会很自然地想到,能否在
2、相关分析的基础上,关分析的基础上,用较少的新变量代替原来用较少的新变量代替原来较多的旧变量较多的旧变量,而且使这些较少的新变量尽,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?可能多地保留原来变量所反映的信息? 问题的提出:问题的提出:制约因素制约因素 S S1 1运输能力低下;运输能力低下; S S2 2资金严重不足;资金严重不足; S S3 3人力、技术力量(包括技术工人人力、技术力量(包括技术工人、工程技术人员工程技术人员、科研人员科研人员、教员等)缺乏;教员等)缺乏; S S4 4水资源不足;水资源不足; S S5 5地方乡镇经济不发达;地方乡镇经济不发达; S S6 6粮
3、食及农副畜产品供应紧张;粮食及农副畜产品供应紧张; S S7 7水土流失,水污染严重;水土流失,水污染严重; S S8 8厂矿建设要占用大部分良田。厂矿建设要占用大部分良田。 方针措施方针措施 P P1 1 引入国外资金,引进技术;引入国外资金,引进技术; P P2 2 国家投资;国家投资; P P3 3 地方集资;地方集资; P P4 4 现有水资源开发节流,合理使用;现有水资源开发节流,合理使用; P P5 5 引水;引水; P P6 6 开发地下水;开发地下水; P P7 7种草种树,发展畜牧;种草种树,发展畜牧; P P8 8加强农田基建,提高单产;加强农田基建,提高单产; P P9
4、9 对可能污染环境的厂矿,对可能污染环境的厂矿,提前采取措施;提前采取措施; P P1010 各省内自行解决人才、技各省内自行解决人才、技术问题;术问题; P P1111 从全国引进人才,引进技从全国引进人才,引进技术;术; P P1212 本地区自行解决人才、技本地区自行解决人才、技术问题;术问题; P P1313 各省内解决农副畜产品供各省内解决农副畜产品供应问题;应问题; P P1414 地方解决粮食供应;地方解决粮食供应; P P1515 省内解决粮食供应;省内解决粮食供应; P P1616 从全国调入粮食;从全国调入粮食; P P1717 改善公路运输条件,改善公路运输条件,新建公路
5、;新建公路; P P1818 修建铁路;修建铁路; P P1919 对重点工矿,加强水对重点工矿,加强水保工作及沙化治理。保工作及沙化治理。 事实上,这种想法是可以实现的,主成分事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力分析方法就是综合处理这种问题的一种强有力的工具。的工具。 主成分分析是把原来多个变量划为少数几主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。个综合指标的一种统计分析方法。 从数学角度来看,这是一种从数学角度来看,这是一种降维处理技术降维处理技术。 主成分分析主成分分析就是设法将原来指标重新组合成一就是设法将原来指标重新组合成
6、一组新的组新的互相无关互相无关的几个综合指标来代替原来指的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综标。同时根据实际需要从中可取几个较少的综合指标合指标尽可能多尽可能多地反映原来的指标的信息。地反映原来的指标的信息。一、主成分分析的基本原理一、主成分分析的基本原理 假定有假定有n n个地理样本,每个样本共有个地理样本,每个样本共有p p个变个变量,构成一个量,构成一个n np p阶的地理数据矩阵阶的地理数据矩阵npnnppxxxxxxxxxX212222111211(3.5.1) 当当p p较大时较大时,在在p p维空间中考察问题比较麻维空间中考察问题比较麻烦。为了克服这
7、一困难,就需要进行烦。为了克服这一困难,就需要进行降维降维处理,处理,即用较少的几个综合指标代替原来较多的变量即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时地反映原来较多变量指标所反映的信息,同时它们之间又是它们之间又是彼此独立的彼此独立的。 主成分分析就是通过适当的变量替换,使新变主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分量成为原变量的线性组合,并寻求主成分来分析事物的一种方法析事物的一种方法. . 定义:记定义:记x x1 1,x x2 2
8、,x xP P为原变量指为原变量指标,标,z z1 1,z z2 2,z zm m(m mp p)为新变量指标)为新变量指标(3.5.2) 系数系数l lijij的确定原则:的确定原则: z zi i与与z zj j(i ij j;i i,j j=1=1,2 2,m m)相互无关;相互无关; z z1 1是是x x1 1,x x2 2,x xP P的一切线性组合的一切线性组合中中方差最大者方差最大者,z z2 2是与是与z z1 1不相关不相关的的x x1 1,x x2 2,x xP P的所有线性组合中的所有线性组合中方差最大者方差最大者; ; ; z zm m是是与与z z1 1,z z2
9、2,z zm m1 1都不相关的都不相关的x x1 1,x x2 2,x xP P, 的所有线性组合中方差最大者。的所有线性组合中方差最大者。 则新变量指标则新变量指标z z1 1,z z2 2,z zm m分别称为原变分别称为原变量指标量指标x x1 1,x x2 2,x xP P的第的第1 1,第,第2 2,第第m m主成分主成分。 主成分分析的几何解释主成分分析的几何解释2121212211cossinsincoscossinsincosxxyyxxyxxyx1x2y1y2v旋转变换的目的是为了使得旋转变换的目的是为了使得n n个样本点在个样本点在y1y1轴轴方向上的方向上的离散程度最大
10、离散程度最大,即,即y1y1的的方差最大方差最大,变量变量y1y1代表了原始数据的绝大部分信息,在代表了原始数据的绝大部分信息,在研究某地理问题时,即使不考虑变量研究某地理问题时,即使不考虑变量y2y2也损也损失不多的信息。失不多的信息。vY1Y1与与y2y2除起了浓缩作用外,还具有除起了浓缩作用外,还具有不相关性不相关性。vY1Y1称为第一主成分,称为第一主成分,y2y2称为第二主成分。称为第二主成分。 从以上的分析可以看出,主成分分析的从以上的分析可以看出,主成分分析的实质就是确定原来变量实质就是确定原来变量x xj j(j j=1=1,2 2 , p p)在诸主成分在诸主成分z zi i
11、(i i=1=1,2 2,m m)上的)上的荷载荷载 l lijij( i i=1=1,2 2,m m; j j=1=1,2 2 ,p p)。)。 从数学上可以证明,它们分别是从数学上可以证明,它们分别是相关矩阵相关矩阵m m个较大的个较大的特征值所对应的特征向量特征值所对应的特征向量。 成绩数据(成绩数据(student.sav)v100个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。史、英语的成绩如下表(部分)。 从本例可能提出的问题从本例可能提出的问题v目前的问题是,能不能把这个数据的目前的问题是,能不能把这个数据的6 6个变量用一两个综
12、合变量来表示呢?个变量用一两个综合变量来表示呢?v这一两个综合变量包含有多少原来的信这一两个综合变量包含有多少原来的信息呢?息呢?v能不能利用找到的综合变量来对学生排能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、广到对企业,对学校进行分析、排序、判别和分类等问题。判别和分类等问题。-4-2024-4-2024v先先假定只有二维假定只有二维,即只有两个变量,它们由,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果有相应于
13、这两个坐标轴的两个坐标值;如果这些数据形成一个这些数据形成一个椭圆形状的点阵椭圆形状的点阵(这在变(这在变量的二维正态的假定下是可能的)量的二维正态的假定下是可能的)v推广开来,对于推广开来,对于p p维总体维总体 ,寻求正交变换寻求正交变换 ,使得,使得v在所有正交变换中,所选正交矩阵在所有正交变换中,所选正交矩阵U U,使,使 最大;最大; 与与 不相关;并且在所有与不相关;并且在所有与 不相关不相关的变量中的变量中 最大;最大; 与与 、不相关,同时、不相关,同时在所有与在所有与 、 不相关的变量中不相关的变量中 最大;最大;依次类推。依次类推。 为为 的主成分总体,的主成分总体, 为为
14、 第一主成分,第一主成分, 为为 第二主成分。第二主成分。n,21ppijuU)(pjjppjjpjjppuuuUUU112112121)(1D2111)(2D3221)(3DU12 主成分分析的数学原理主成分分析的数学原理v对原有变量作坐标变换对原有变量作坐标变换,v其中:其中:ppppppppppxuxuxuzxuxuxuzxuxuxuz.22112222112212211111jijiiiiipkkkUxDUzzUxDUxDUzuuu)(),cov()()()var(1.222221v如果如果z z1 1=u=u1 1x x满足满足 v则称则称z z1 1为为x x的第一主成分。的第一主
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机软件及应用 计算机软件 应用 成分 分析 ppt 课件
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内