第3章 主成分分析.ppt.ppt
《第3章 主成分分析.ppt.ppt》由会员分享,可在线阅读,更多相关《第3章 主成分分析.ppt.ppt(46页珍藏版)》请在第壹文秘上搜索。
1、1第三节第三节 主成分分析主成分分析什么是主成分分析什么是主成分分析主成分分析(主成分分析(Principal Components AnalysisPrincipal Components Analysis)也称主分量分析也称主分量分析 是将多个指标,化为少数几个不相关的是将多个指标,化为少数几个不相关的 综合指标的一种统计方法。综合指标的一种统计方法。在综合评价工业企业的经济效益中,考核指标有:在综合评价工业企业的经济效益中,考核指标有:1 1每百元固定资产原值实现产值、每百元固定资产原值实现产值、2 2每百元固定资产原值实现利税、每百元固定资产原值实现利税、3 3每百元资金实现利税、每百
2、元资金实现利税、4 4每百元工业总产值实现利税、每百元工业总产值实现利税、5 5每百元销售收入实现利税、每百元销售收入实现利税、6 6每吨标准煤实现工业产值、每吨标准煤实现工业产值、7 7每千瓦电力实现工业产值、每千瓦电力实现工业产值、8 8全员劳动生产率、全员劳动生产率、9 9每百元流动资金实现的产值每百元流动资金实现的产值指标间信息有重叠,指标数量又多。指标间信息有重叠,指标数量又多。经过主成分分析计算,最后确定选择了经过主成分分析计算,最后确定选择了2 2个主成分作为综合个主成分作为综合评价工业企业经济效益的依据,变量数由评价工业企业经济效益的依据,变量数由9 9个减少到个减少到2 2个
3、,这两个,这两个主成分代表的信息达个主成分代表的信息达91.6%91.6%,使所研究的问题简化。,使所研究的问题简化。主成分分析的几何意义主成分分析的几何意义:为了直观,先在二维空间中讨论主成分的几何意义。为了直观,先在二维空间中讨论主成分的几何意义。一般情况下,例如有一般情况下,例如有n n个样品,每个样品有两个变量个样品,每个样品有两个变量值值X X1 1和和X X2 2,这,这n n个样品的散点图如带状个样品的散点图如带状.由图可见这由图可见这n n个样品点无论是沿着个样品点无论是沿着X X1 1轴方向或轴方向或X X2 2轴方向都具有较轴方向都具有较大的离散性,其离散的程度可以分别用观
4、测变量大的离散性,其离散的程度可以分别用观测变量X X1 1的方差和的方差和X X2 2的方差定量地表示。的方差定量地表示。2x1x1F2F2x1x1F2F主成分分析的几何解释2x1x1F2F 主成分分析的几何解释2x1x1F2F主成分分析的几何解释 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越
5、大,降维效果就越好。对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可
6、,具体选几个,要看实际情况而定。第二节第二节 主成分的求解主成分的求解 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,个指标,我们把这我们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为 X X1 1,X X2 2,X Xp p 主成分分析就是要把这主成分分析就是要把这p p个指标的问题,转个指标的问题,转变为讨论变为讨论p p个指标的线性组合的问题个指标的线性组合的问题 ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111主成分分析通常的做法是,寻求原指标的线性组合主成分分析通常的做法是,寻求原
7、指标的线性组合Yi。并且满足:并且满足:1 (i=1,2,1 (i=1,2,P)P)*2 2 不相关性,不相关性,Y Yi i与与Y Yj j不相关。不相关。3 3 方差极大条件,方差极大条件,)()(21pYVarYVarYVar)(),(21ipiiiaaaa122221ipiiaaappppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111主成分的求解:主成分的求解:ppppppppppXaXaXaYXaXaXaYXaXaXaY22112222121212121111ipiiaaa,21求系数求系数 ,而其正是观测变量相关矩阵的单位,而其正是观
8、测变量相关矩阵的单位特征向量。因此,通过求解特征向量。因此,通过求解 的特征方程,得到的特征方程,得到P P个特个特征根和征根和P P个单位特征向量,把个单位特征向量,把P P个特征根按从大到小的顺个特征根按从大到小的顺序排列,记作序排列,记作i i(i=1,2,(i=1,2,p),p),它们分别代表,它们分别代表P P个主个主成分所解释的观测变量的方差,即成分所解释的观测变量的方差,即Var(YVar(Yi i)=)=i i(i=1,2,(i=1,2,p),p)。相应的。相应的P P个单位特征向量就是主成分的个单位特征向量就是主成分的系数系数 (i=1,2,i=1,2,p,p)。)。ipii
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第3章 主成分分析.ppt 成分 分析 ppt