欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    [计算机软件及应用]主成分分析ppt课件.ppt

    • 资源ID:19212541       资源大小:585.52KB        全文页数:47页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    [计算机软件及应用]主成分分析ppt课件.ppt

    第第5 5节节 主成分分析主成分分析 主成分分析的基本原理主成分分析的基本原理 主成分分析的计算步骤主成分分析的计算步骤 主成分分析方法应用实例主成分分析方法应用实例 图 地理数据立方体 地理系统是多要素的复杂系统。在地理地理系统是多要素的复杂系统。在地理学研究中,学研究中,多变量多变量问题是经常会遇到的。变问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,性,而且在许多实际问题中,多个变量之间多个变量之间是具有一定的相关关系的。是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相因此,人们会很自然地想到,能否在相关分析的基础上,关分析的基础上,用较少的新变量代替原来用较少的新变量代替原来较多的旧变量较多的旧变量,而且使这些较少的新变量尽,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?可能多地保留原来变量所反映的信息? 问题的提出:问题的提出:制约因素制约因素 S S1 1运输能力低下;运输能力低下; S S2 2资金严重不足;资金严重不足; S S3 3人力、技术力量(包括技术工人人力、技术力量(包括技术工人、工程技术人员工程技术人员、科研人员科研人员、教员等)缺乏;教员等)缺乏; S S4 4水资源不足;水资源不足; S S5 5地方乡镇经济不发达;地方乡镇经济不发达; S S6 6粮食及农副畜产品供应紧张;粮食及农副畜产品供应紧张; S S7 7水土流失,水污染严重;水土流失,水污染严重; S S8 8厂矿建设要占用大部分良田。厂矿建设要占用大部分良田。 方针措施方针措施 P P1 1 引入国外资金,引进技术;引入国外资金,引进技术; P P2 2 国家投资;国家投资; P P3 3 地方集资;地方集资; P P4 4 现有水资源开发节流,合理使用;现有水资源开发节流,合理使用; P P5 5 引水;引水; P P6 6 开发地下水;开发地下水; P P7 7种草种树,发展畜牧;种草种树,发展畜牧; P P8 8加强农田基建,提高单产;加强农田基建,提高单产; P P9 9 对可能污染环境的厂矿,对可能污染环境的厂矿,提前采取措施;提前采取措施; P P1010 各省内自行解决人才、技各省内自行解决人才、技术问题;术问题; P P1111 从全国引进人才,引进技从全国引进人才,引进技术;术; P P1212 本地区自行解决人才、技本地区自行解决人才、技术问题;术问题; P P1313 各省内解决农副畜产品供各省内解决农副畜产品供应问题;应问题; P P1414 地方解决粮食供应;地方解决粮食供应; P P1515 省内解决粮食供应;省内解决粮食供应; P P1616 从全国调入粮食;从全国调入粮食; P P1717 改善公路运输条件,改善公路运输条件,新建公路;新建公路; P P1818 修建铁路;修建铁路; P P1919 对重点工矿,加强水对重点工矿,加强水保工作及沙化治理。保工作及沙化治理。 事实上,这种想法是可以实现的,主成分事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力分析方法就是综合处理这种问题的一种强有力的工具。的工具。 主成分分析是把原来多个变量划为少数几主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。个综合指标的一种统计分析方法。 从数学角度来看,这是一种从数学角度来看,这是一种降维处理技术降维处理技术。 主成分分析主成分分析就是设法将原来指标重新组合成一就是设法将原来指标重新组合成一组新的组新的互相无关互相无关的几个综合指标来代替原来指的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综标。同时根据实际需要从中可取几个较少的综合指标合指标尽可能多尽可能多地反映原来的指标的信息。地反映原来的指标的信息。一、主成分分析的基本原理一、主成分分析的基本原理 假定有假定有n n个地理样本,每个样本共有个地理样本,每个样本共有p p个变个变量,构成一个量,构成一个n np p阶的地理数据矩阵阶的地理数据矩阵npnnppxxxxxxxxxX212222111211(3.5.1) 当当p p较大时较大时,在在p p维空间中考察问题比较麻维空间中考察问题比较麻烦。为了克服这一困难,就需要进行烦。为了克服这一困难,就需要进行降维降维处理,处理,即用较少的几个综合指标代替原来较多的变量即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时地反映原来较多变量指标所反映的信息,同时它们之间又是它们之间又是彼此独立的彼此独立的。 主成分分析就是通过适当的变量替换,使新变主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分量成为原变量的线性组合,并寻求主成分来分析事物的一种方法析事物的一种方法. . 定义:记定义:记x x1 1,x x2 2,x xP P为原变量指为原变量指标,标,z z1 1,z z2 2,z zm m(m mp p)为新变量指标)为新变量指标(3.5.2) 系数系数l lijij的确定原则:的确定原则: z zi i与与z zj j(i ij j;i i,j j=1=1,2 2,m m)相互无关;相互无关; z z1 1是是x x1 1,x x2 2,x xP P的一切线性组合的一切线性组合中中方差最大者方差最大者,z z2 2是与是与z z1 1不相关不相关的的x x1 1,x x2 2,x xP P的所有线性组合中的所有线性组合中方差最大者方差最大者; ; ; z zm m是是与与z z1 1,z z2 2,z zm m1 1都不相关的都不相关的x x1 1,x x2 2,x xP P, 的所有线性组合中方差最大者。的所有线性组合中方差最大者。 则新变量指标则新变量指标z z1 1,z z2 2,z zm m分别称为原变分别称为原变量指标量指标x x1 1,x x2 2,x xP P的第的第1 1,第,第2 2,第第m m主成分主成分。 主成分分析的几何解释主成分分析的几何解释2121212211cossinsincoscossinsincosxxyyxxyxxyx1x2y1y2v旋转变换的目的是为了使得旋转变换的目的是为了使得n n个样本点在个样本点在y1y1轴轴方向上的方向上的离散程度最大离散程度最大,即,即y1y1的的方差最大方差最大,变量变量y1y1代表了原始数据的绝大部分信息,在代表了原始数据的绝大部分信息,在研究某地理问题时,即使不考虑变量研究某地理问题时,即使不考虑变量y2y2也损也损失不多的信息。失不多的信息。vY1Y1与与y2y2除起了浓缩作用外,还具有除起了浓缩作用外,还具有不相关性不相关性。vY1Y1称为第一主成分,称为第一主成分,y2y2称为第二主成分。称为第二主成分。 从以上的分析可以看出,主成分分析的从以上的分析可以看出,主成分分析的实质就是确定原来变量实质就是确定原来变量x xj j(j j=1=1,2 2 , p p)在诸主成分在诸主成分z zi i(i i=1=1,2 2,m m)上的)上的荷载荷载 l lijij( i i=1=1,2 2,m m; j j=1=1,2 2 ,p p)。)。 从数学上可以证明,它们分别是从数学上可以证明,它们分别是相关矩阵相关矩阵m m个较大的个较大的特征值所对应的特征向量特征值所对应的特征向量。 成绩数据(成绩数据(student.sav)v100个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。史、英语的成绩如下表(部分)。 从本例可能提出的问题从本例可能提出的问题v目前的问题是,能不能把这个数据的目前的问题是,能不能把这个数据的6 6个变量用一两个综合变量来表示呢?个变量用一两个综合变量来表示呢?v这一两个综合变量包含有多少原来的信这一两个综合变量包含有多少原来的信息呢?息呢?v能不能利用找到的综合变量来对学生排能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、广到对企业,对学校进行分析、排序、判别和分类等问题。判别和分类等问题。-4-2024-4-2024v先先假定只有二维假定只有二维,即只有两个变量,它们由,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个这些数据形成一个椭圆形状的点阵椭圆形状的点阵(这在变(这在变量的二维正态的假定下是可能的)量的二维正态的假定下是可能的)v推广开来,对于推广开来,对于p p维总体维总体 ,寻求正交变换寻求正交变换 ,使得,使得v在所有正交变换中,所选正交矩阵在所有正交变换中,所选正交矩阵U U,使,使 最大;最大; 与与 不相关;并且在所有与不相关;并且在所有与 不相关不相关的变量中的变量中 最大;最大; 与与 、不相关,同时、不相关,同时在所有与在所有与 、 不相关的变量中不相关的变量中 最大;最大;依次类推。依次类推。 为为 的主成分总体,的主成分总体, 为为 第一主成分,第一主成分, 为为 第二主成分。第二主成分。n,21ppijuU)(pjjppjjpjjppuuuUUU112112121)(1D2111)(2D3221)(3DU12 主成分分析的数学原理主成分分析的数学原理v对原有变量作坐标变换对原有变量作坐标变换,v其中:其中:ppppppppppxuxuxuzxuxuxuzxuxuxuz.22112222112212211111jijiiiiipkkkUxDUzzUxDUxDUzuuu)(),cov()()()var(1.222221v如果如果z z1 1=u=u1 1x x满足满足 v则称则称z z1 1为为x x的第一主成分。的第一主成分。v若若z z1 1不足以代表原变量所包含的信息,就考不足以代表原变量所包含的信息,就考虑采用虑采用z z2 2。vZ2Z2满足满足 vZ Z2 2为第二主成分为第二主成分111uu)var(max)var(1xuz0),cov(21zz122uu)var(max)var(2XUz主成分总体存在的必要条件主成分总体存在的必要条件v对于对于P P维总体维总体 ,其主成分总其主成分总体体 存在的必要条件是,相应存在的必要条件是,相应正交正交矩阵矩阵U U满足条件满足条件v其中其中p,.,21U0ipiUIEpiiipiiiDUUUU2121)(),(v证明:证明: pppppjijijijippdiagDDDdiagDDDjiDDDU2121212121,),cov(0),cov(,的协方差矩阵与的协方差与互不相关且的主成分总体为 0221121212121 ipiiiipppppptUIUUUUUUUUUUUUUUUUUUUUUUEUUEEU的协方差矩阵又xAx0)(xIA对比对比v从公式的计算推导可以发现从公式的计算推导可以发现: :v主成分方程中的主成分方程中的系数向量系数向量U U恰好是原有恰好是原有变量协变量协方差矩阵的特征向量方差矩阵的特征向量; ;v其其特征根是主成分的方差特征根是主成分的方差。ppppppppppxuxuxuzxuxuxuzxuxuxuz.22112222112212211111量纲对于主成分分析的影响及消除方法量纲对于主成分分析的影响及消除方法 对数据进行标准化处理,以使每一个变量的对数据进行标准化处理,以使每一个变量的均值为均值为0 0,方差为,方差为1 1。 iiiiDE*v数据标准化后数据标准化后, ,总体的协方差矩阵与总体的相总体的协方差矩阵与总体的相关系数相等关系数相等. .),cov()()(),cov()()()(),cov(*jijijiijjijjiijiDDEEEE二、主成分分析的计算步骤二、主成分分析的计算步骤 (一)计算相关系数矩阵一)计算相关系数矩阵 r rijij(i i,j j=1=1,2 2,p p)为原变量)为原变量x xi i与与x xj j的相关系数,的相关系数, r rijij= =r rjiji,其计算公式其计算公式为为pppppprrrrrrrrrR212222111211(3.5.3) nknkjkjikinkjkjikiijxxxxxxxxr11221)()()((3.5.4) v定义定义 设设A A是一个是一个n n阶方阵,若存在着一个阶方阵,若存在着一个数数 和一个非零和一个非零n n维向量维向量x x,使得,使得v则称则称 是方阵是方阵A A的的特征值特征值,非零向量非零向量x x称称v为为A A对应于特征值对应于特征值 的的特征向量特征向量,或简称,或简称为为A A的特征向量。的特征向量。xAx(二)计算特征值与特征向量(二)计算特征值与特征向量回顾一下回顾一下: :v 特征值与特征向量的特征值与特征向量的求法求法v 可改写为可改写为 v这实际上是一个这实际上是一个n n个未知数个未知数n n个方程的齐次线个方程的齐次线性方程组,特征向量可看成是它的一个非零性方程组,特征向量可看成是它的一个非零解。而此齐次线性方程组有非零解的充要条解。而此齐次线性方程组有非零解的充要条件是件是 ,即,即v (称为方阵(称为方阵A A的特征方程)的特征方程)xAx0)(xIA0IA0212222111211nnnnnnaaaaaaaaav从从A A的特征方程中解出的的特征方程中解出的 值就是值就是A A的的特征值特征值。然后通过求解方程组。然后通过求解方程组v就可以求出就可以求出A A的的特征向量特征向量。0)(xIA (二)计算特征值与特征向量(二)计算特征值与特征向量 解特征方程,常用雅可比法解特征方程,常用雅可比法(JacobiJacobi)求出特征值,并使其按大小顺序排)求出特征值,并使其按大小顺序排列列 ; 雅可比算法雅可比算法主要是通过正交相似变换将一个实对称矩阵对角化,从而求出主要是通过正交相似变换将一个实对称矩阵对角化,从而求出该矩阵的全部特征值和对应的特征向量。因此可以用一系列的该矩阵的全部特征值和对应的特征向量。因此可以用一系列的初等正交变初等正交变换换逐步消去逐步消去A的非对角线元素,从而使的非对角线元素,从而使矩阵矩阵A对角化对角化 .0RI021p 分别求出对应于特征值分别求出对应于特征值 的特征向量的特征向量 ,要求,要求 =1=1,即,其中表示向量即,其中表示向量 的第的第j j个分量。个分量。i), 2 , 1(pieiie112pjijeijeie 计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率 贡献率贡献率),2, 1(1pipkki累计贡献率累计贡献率 ),2, 1(11pipkkikk 一般取累计贡献率达一般取累计贡献率达85%-95%85%-95%的特征值的特征值所对应的第所对应的第1 1、第、第2 2、第、第m m(m mp p)个主成分。)个主成分。 m,21 计算主成分载荷计算主成分载荷 各主成分的得分各主成分的得分 ), 2 , 1,(),(pjiexzplijijiij(3.5.5) nmnnmmzzzzzzzzzZ212222111211(3.5.6) 三、 主成分分析方法应用实例 下面,我们根据表下面,我们根据表3.5.13.5.1给出的数据,对给出的数据,对某农业生态经济系统做主成分分析。某农业生态经济系统做主成分分析。 表3.5.1 某农业生态经济系统各区域单元的有关数据 步骤如下:步骤如下: (1 1)将表)将表3.5.13.5.1中的数据作中的数据作标准差标准标准差标准化化处理,然后将它们代入公式(处理,然后将它们代入公式(3.5.43.5.4)计算)计算相关系数矩阵(表相关系数矩阵(表3.5.23.5.2)。)。表3.5.2相关系数矩阵 (2 2)由相关系数矩阵计算)由相关系数矩阵计算特征值,特征值,以及各个主成分的贡献率与累计贡献率(表以及各个主成分的贡献率与累计贡献率(表3.5.33.5.3)。由表)。由表3.5.33.5.3可知,第可知,第1 1,第,第2 2,第,第3 3主成分的累计贡献率已高达主成分的累计贡献率已高达86.596%86.596%(大于(大于85%85%),故只需要求出第),故只需要求出第1 1、第、第2 2、第、第3 3主成分主成分z z1 1,z z2 2,z z3 3即可。即可。 表3.5.3特征值及主成分贡献率 (3 3)对于特征值)对于特征值 =4.661 0=4.661 0, =2.089 0=2.089 0, =1.0430=1.0430分别求出其分别求出其特特征向量征向量e e1 1,e e2 2,e e3 3,再用公式(,再用公式(3.5.53.5.5)计算)计算各变量各变量x x1 1,x x2 2,x x9 9在主成分在主成分z z1 1,z z2 2,z z3 3上上的载荷(表的载荷(表3.5.43.5.4)。)。 123 主成分载荷 表3.5.4 主成分载荷 上述计算过程上述计算过程,可以借助于可以借助于SPSS软件系统实现。软件系统实现。(占方差的百分数占方差的百分数),在一定程度上反映了),在一定程度上反映了3个主成分个主成分z1、z2、z3包含原变量(包含原变量(x1,x2,x9)的信息量多少。)的信息量多少。 (1) (1)第第1 1主成分主成分z z1 1与与x x1 1,x x5 5,x x6 6,x x7 7,x x9 9呈现出较强的正相关,与呈现出较强的正相关,与x x3 3呈现出较强的呈现出较强的负相关,而这几个变量则综合反映了生态负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第经济结构状况,因此可以认为第1 1主成分主成分z z1 1是是生态经济结构生态经济结构的代表。的代表。 (2)(2)第第2 2主成分主成分z z2 2与与x x2 2,x x4 4,x x5 5呈现出较呈现出较强的正相关,与强的正相关,与x x1 1呈现出较强的负相关,呈现出较强的负相关,其中,除了其中,除了x x1 1为人口总数外,为人口总数外,x x2 2,x x4 4,x x5 5都都反映了人均占有资源量的情况,因此可以反映了人均占有资源量的情况,因此可以认为第认为第2 2主成分主成分z z2 2代表了代表了人均资源量人均资源量。 分析:分析: 显然,用显然,用3 3个主成分个主成分z z1 1、z z2 2、z z3 3代替原代替原来来9 9个变量(个变量(x x1 1,x x2 2,x x9 9)描述农业生)描述农业生态经济系统,可以使问题更进一步简化、态经济系统,可以使问题更进一步简化、明了。明了。 (3) (3)第第3 3主成分主成分z z3 3与与x x8 8呈现出的正相关程度呈现出的正相关程度最高,其次是最高,其次是x x6 6,而与,而与x x7 7呈负相关,因此可呈负相关,因此可以认为第以认为第3 3主成分在一定程度上代表了主成分在一定程度上代表了农业农业经济结构。经济结构。 (4)(4)另外,表另外,表3.5.43.5.4中最后一列(中最后一列(占方差占方差的百分数的百分数),在一定程度上反映了),在一定程度上反映了3 3个主成个主成分分z z1 1、z z2 2、z z3 3包含原变量(包含原变量(x x1 1,x x2 2,x x9 9)的信息量多少。的信息量多少。 因子分析有两个核心问题:一是如何构造因子分析有两个核心问题:一是如何构造变量,二是如何对因子变量命名解释。因子分变量,二是如何对因子变量命名解释。因子分析的基本步骤有四步:(析的基本步骤有四步:(1 1)确定带分析的原)确定带分析的原有若干变量是否适于因子分析;(有若干变量是否适于因子分析;(2 2)构造因)构造因子变量;(子变量;(3 3)利用旋转使得因子变量更具有)利用旋转使得因子变量更具有可解释性;(可解释性;(4 4)计算因子变量得分。)计算因子变量得分。

    注意事项

    本文([计算机软件及应用]主成分分析ppt课件.ppt)为本站会员(飞****2)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开