对主成分分析中综合得分方法的质疑(王学民).docx
《对主成分分析中综合得分方法的质疑(王学民).docx》由会员分享,可在线阅读,更多相关《对主成分分析中综合得分方法的质疑(王学民).docx(7页珍藏版)》请在第壹文秘上搜索。
1、对主成分分析中综合得分方法的质疑王学民原载于统计与决策,2007年第8期摘要:在作主成分分析时,国内近年来流行一种通过建立综合评价函数来对各样品进行综合排名的方法。本文对这一方法的不科学性作了阐述,并指出在综合评价函数中对各主成分使用贡献率加权是错中加错。关键词:主成分;信息量;综合评价函数;综合得分一、问题的提出在多元数据分析中,近年来国内流行一种通过建立综合评价函数来对所有样品进行综合排名的方法。该方法是这样的:对P个原始变量*Zr,通过主成分分析,取前例个主成分必,歹2,歹叫其方差分别为44,乙,以每个主成分必的贡献率/i=作为权数,构造综合评价函数F=aly,+a2y2-+amym计算
2、出每个样品的(小、)综合得分,然后依这个得分的大小对所有样品进行综合排名。对这种用线性组合的方式来综合各主成分的方法,笔者从未在国外的有关多元统计分析的文献中见过。该方法粗看起来似乎有一定道理且很有吸引力(似乎可以综合排名7),但仔细推敲之后就会发现这一方法是对主成分思想和方法的误解,是不科学的,没有什么理论和应用上的价值。该综合排名方法在我国的多元数据分析应用中已得到了比较普遍的误用,笔者曾在参考文献中的253页上简略地谈到过这一问题,现觉得很有必要针对这一问题作一具体阐述,谈谈自己的观点,供大家参考和讨论。二、主成分的基本思想除了将主成分法用于聚类或回归分析或寻找变量之间的共线性关系等目的
3、之外,主成分分析的一般目的由两点组成:(1)将多个有相关关系的变量压缩成少数几个不相关的主成分(综合变量),并保留绝大部分信息;(2)给出各主成分的具有实际背景和意义的解释。这里我们只讨论主成分分析的这种一般目的。主成分的价值就在于它的信息量(可用方差来度量)达到最大化,即使前少数几个主成分能使累计贡献率达到一个较大的百分数,这几个主成分能不能用还得看它们是否都能得到符合实际意义的解释C例1在1984年洛杉矶奥运会IAAF/ATFS田径统计手册中,有55个国家和地区的如下八项男子径赛运动记录:xI:IOO米(单位:秒)W:1500米(单位:分)x2:200米(单位:秒)%5000米(单位:分)
4、*3:400米(单位:秒):10000米(单位:分):800米(单位:秒):马拉松(单位:分)经计算“1,”2,/的样本相关矩阵入列于表1。火的前两个特征值、特征向量*丰及贡献率列于表2,其中Xi是不经标准化得到的,即Xi的均值和标准差分别为0和Io表1玉X2%X7玉1.000x20.9231.000x30.8410.8511.000工40.7560.8070.8701.000X50.7000.7750.8350.9181.000A0.6190.6950.7790.8640.9281.000X70.6330.6970.7870.8690.9350.9751.0000.5200.5960.705
5、0.8060.8660.9320.9431.000特征向量h,2*x:100米0.3180.567*2:200米0.3370.462“3:400米0.3560.248季*4;800米0.3690.012*5:1500米0.373-0.140*天:5000米0.364-0.312*“7;IOOOO米0.367-0.307*演:马拉松0.342-0.439特征值6.6220.878贡献率0.8280.110累计贡献率0.8280.937由表2知,前两个主成分的累计贡献率已高达93.7%,第一主成分必在所有变量上有几乎相等的正载荷,可称为在径赛项目上的强弱成分。第二主成分乃在%,”2,”8上的载荷基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 综合 得分 方法 质疑 王学民