《06因子分析,DOC.docx》由会员分享,可在线阅读,更多相关《06因子分析,DOC.docx(13页珍藏版)》请在第壹文秘上搜索。
1、因子分析专题8.1引言因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元分析方法,其目的是用有限个不可观测的隐变量来解稗原始变量之间的相关关系。例8.1.11.inden对二次大战以来奥林匹克十项全能比赛的得分做了分析研究,他收集了160组数据,这十个全能项目依次为:100米幽、跳远、铅球、跳而、400米跑、110米跨栏、铁饼、撑竿跳高i、标枪、1500米造。但是总的来说基本上可归结为他们的短跑速度、爆发性臂力、爆发性能力和耐力这四个方面,每一个方面都称为一个因子。用芭,8,分别表示十个项目的得分,它们可以表示为含有上述四个因子的线性模型:X,=冉+a,fl+%人+,j
2、+%hi=1,2,JO其中九人Ja表示4个因子,称为公因子,为称为第i个变量在第j个因子上的载荷。,是总平均,C,是第i项得分不能被四个公因子解释的部分,称之为特殊因子。这个模型形式上与线性回归模型几乎样,但是它们有着本J贞的区别:回归模型中自变量是可以被观测得到的,而上述因了模型中的/,4J,./,是不可观测的隘变量,这使得该模型理解起来较为困难:再者,两个模型的参数意义也很不相同。例8.1.2为了评价高中学生将来进大学时的学习能力,抽了200名高中生进行问卷调查,共50个问题“所有这些问题可简单地归结为阅读理解、数学水平和艺术修养这三个方面。这也是一个因子分析模型,每一方面就是一个因子。例
3、8.1.3公司老板对48名申请工作的人进行面试,并给出申请人在15个方面所得的分数,这15个方面是:(1)中请信的形式:(2)外貌:(3)专业能力:)讨人喜欢的能力:(5)自信心:6)洞察力:(7)诚实:(8)推销能力:(9)经脸:10)驾驶汽车本领:(11)抱负:(12)理解能力;(13)潜力:(14)对工作要求强烈程度(15)适应性。这些问题可以归结为如下的几个方面:申谙者外露的能力,讨人喜欢的程度,申请者的经验,专业能力。每一方面都是因子模型中的一个因子。8.2因子模型一、数学模型设维可观测的M机向垃=(内,4,的均值为=3协方差矩阵为=(ll),因子分析的一般模里为M=M+%/+。”人
4、+GX1=2+2IZ+atif2+a2mfm+2,oox,=,+4/+叫J?+a/+。其中f,ro为公因子,与,白,与为特殊因子,它们都是不可观测的随机变量。公因子工,2,Je出现在每一个原始变量阳C=12卬)的表达式中,可理解为原始变址共同具有的公共因素:每个公因子/,(/=12,。至少对两个原始变量有作用,否则它将归入特殊因子。每个特殊因子%N=12,0仪仅出现在与之相应的第i个原始变量X,的表示式中,它只对这个原始变量有作用。(8.2.1)式可用矩阵表示为X=+Af+,(,P)为公因子向垃,=(邑,6J为特殊因子向最,A=(%):px,“称为因子载荷矩阵,并假设A的秩为,通常假定W)=O
5、m.,E(G=OMV(J)=4/-凤/)1/-EU)H=E0=J8.2.3),)=-E(c)-E()=E,=D=diag(,j,.)CoVef=E-E(-E(f)JI=E(f,)=Qmxp同理易知co,(J)=E-E()Yf-f()=Ew)=O,注意两个协方差矩阵阶数不一样。由上述假定可以看出,公因子彼此不相关且具有单位方差,特殊因子彼此不相关且和公因子也不相关。因子分析与主成分分析是多元分析中两种重要的降维方法,但两者有很大的不同。主成分分析不能作为个模型来描述,它只能作为般的变量变换,主成分是可观测的原始变51的线性组合:而因子分析需要构造一个因子模型,公因子一般不能表示为原始变量的线性组
6、合.二、因子模型的性质1 .X的协方差矩阵的分解由(8.2.2)式知即Z=A4+O8.2.4)这就是的一个分解:如果K为标准化了的随机向量,则E就是相关矩阵K=(八)什,即有R=AA,+D0,(/-1,2,/?)于是/=Ar=A(+/V+)=+,令,=,A=A,f=f1=,则有=+A+e(仍然为因子分析模型)这个模型能满足完全类似于(823)式的假定,即其中即O=diaR(T.T;,.,),l=y*z2.(=l,2,p)3.因子教荷是不唯一的设了为任意,xn正交矩阵,令f=47,f=Tf,则模型(8.2.2)式能表示为因为所以仍满足条件(8.2.3)式。从(8.2.4)式可以看出,Z也可分解为
7、=A*A*+D(8.2.7)因此,因子载荷矩阵A不是唯一的,在实际应用中常常利用这点,通过因子的变换,使得新的闪子有更好的实际意义。三、因子就荷矩阵的统计意义1. A的元素询一一原始变任巧与公因子人之间的协方差函数(8.2.1)式可以表示为=X+1,Ji+ai2f,-+anfm+i,(i=l,2,p)(8.2.8)故CoVaJj)=COV3,+.Z+%A+邑/)=COVmlIAJ)+C0V(6,f1)=aiCov(,J/)+COV/)(8.2.9)=A即心是工与之间的协方差函数。若X为标准化J的随机向fit,HPV(X1)=I,则莺与/,之间的相关系数CoV区/)河%,/,=)=cov(怎/)
8、=-对(8.2.8)式两边取方差(i=l,2j,p)O令K=:+欣+嫉=Z。3=12.P),于是=h:+,(=l,2,p)()反映了公因子对x,的影响,可以看成是公因子对x,的方差贡献,称为共性方差:而而是特殊因了?对X,的方差贡献,称为个性方差当X为标准化了的随机向量时,n=1.此时有+=l,(=1,2,-,p)O3. A的列元素平方和4=4,一一公因子,对X的贡献r三l由()式得iV(X,)=V(M+alJ+l22+aaJn+J=SV(M)+(J)+丫(力)+*Y*m)+tV(J)I-I1-1I-Ir-1=dV(1)+5V(2)+.+a-uV(fm)+;i-l)=f;:*()+(a-V(,
9、)+力亡V()+如:/-I)I-I)kI=I)i-l=g()+gW5)+g1-)+d=gj2+g2gj+k其中g;=2X,=12,从()式可见,A的第/列元素的平方和是H/,)的系数,舅的值越大,反映r/,对X的影响越大,焉是衡量公因子/,重要性的一个尺度,可视为公因子人对*的贡献。8.3参数估计设片,x2,K,是一是P维样本,则和Z可分别估计为7=)i和s=J7S-b(z-b仁/i-l-r为了建立因子模型,首先要估计因子栽荷矩阵A=(J:x,”和个性方差矩阵O=dhg(b);,.b;)。常用的参数估计方法有如下三种:主成分法,主因子法和极大似然法。一、主成分法设样本协方差矩阵S的特征值依次为
10、42冬之NO,相应的正交单位特征向量为r1.r2,.r选取相对较小的主成分个数,”,并使得累计贡献率达到一个较高的百分比,则S可作如下的近似分解rtt9fS=ltlfl+2t2t2+w+m.mwI+乙乙,。J二E二xEE%:I,.)21222rt12.rt1J贯点:而二回点:41易知,万:=SU-ZG;,/=1.2,?o证明如下。因为sN筋+/5,即又因为(A.4AA+A?A;,即对比等式两边,即得伉2=5-用,i=12,外证明完毕.这里的A和。就是因子模型的一个解。因子载荷矩阵A的第j列与S的第j个主成分的系数向量仅相差一个倍数口(y=l,2,-.w).因此这个解就称为主成分解若p个原始变量
11、的单位不同,则我们首先对原始变量作标准化变换,此时的样本协方差矩阵即为原始变量的样本相关矩阵*,用A代替8.3.1)式中的S,可类似地求得生成分的解。二、主因子法主因子法是因子分析中一种最简单、最有效的方法,它已经得到了最普遍的应用.我们这垠假定原始变量X已作了标准化变换,如果随机向量K满足因子模型则仃,R=AA,+D,其中R为X的相关矩阵,令*=C-D=/VV8.3.2)RcR;、即*=Re心、RmRgIF则称*为X的约相关矩阵。易见,R中的时角元素是始,而不是1,非对角元素和R中是完全一样的,并且*是一个非负定矩阵.我们首先在相关矩阵R及个性方差矩阵d由(er;,区,。力已知的条件下,求出
12、因子载荷矩阵A。由上一节因子模型的性质3知,A的解是不唯一的,可以有许多。主因子法就是要求得到的解能使第一个公因子工硝的贡献屋=%;达到最大,第二个公因子人对X的贡献K=EX次-I之,第用个公因子。对X的贡献“=壮最小.由TM次(*)=m4(/W)=山A(八)=,所以*有阳个正特征值,依次记为iZ.(),相应的正交单位特征向相为故*的谱分解为Rm+;-+,面;、8.3.3)=(v.-;i=AA,其中,A=麻:K4,沅力8.3.4)它就是我们所要求的主因子解.A中的第/列元素的平方和为际力标M;,即4=g;=a;(8.3.5)在实际应用中,相关矩阵/?和个性方差矩阵。一般都是未知的,它们可通过一
13、组样本司,修,,4来进行估计为了符号上的方便,我们将H(或Q的估计值仍记为R(或配)。估计个性方差k等价于估计共性方差吃这是因为由后+#=1,=,2,p)式如;=1-/.(I=1.2,)而(或肥)的较好估计一般很难直接得到,通常是先给出它的一个初始估计万:(或后),待载荷矩阵A估计好之后再作出7;(或发)的最终估计。个性方差(或共性方差犬)的常用初始估计方法有如下几种:1)后取为原始变量X,与其它原始变量玉.4,ETET的复相关系数的平方,则7;=1-;o取仇?T,其中是KT的对角元素.(3)取A;=ImXwl,则;=1-/;/.(4)取后=1,则短=0,得到的4是一个主成分解。(因为此时。=0,K=R)因子的个数M应选取为多少呢?一般可采用主成分分析中确定主成分个数的原则,即寻求一个较小的自然数,”,使得达到一个较高的百分比(比如至少达到85%)。需要指出的是,R的部分特征值可能是负的。最后,取*的前,”的正特征值Z2外之之二。及其相应的正交单位特征向量J:,可以得到近似分解式其中的最终估计为&=-h-=-a-,(=l.2,-.p)8.3.7)我们称这样求得的A和力=,而虱君,兔,3为因子模型的主因了解。如果我们希望求得近似程度