04聚类分析.docx
《04聚类分析.docx》由会员分享,可在线阅读,更多相关《04聚类分析.docx(16页珍藏版)》请在第壹文秘上搜索。
1、聚类分析专题 6.1 言俗话说,“物以类聚,人以群分“,在自然科学和社会科学等各领域中,存在着大量的分类问题。分类学是人类相识世界的基础科学,在古老的分类学中,人们主要靠阅历和专业学问进行定性的分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭阅历和专业学问难以准确地进行分类,于是人们渐渐地把数学工具引用到了分类学中,这便形成了数值分类学这一学科,之后又将多元分析的技术引入到数值分类学,便又从数值分类学中分别出一个重要分支一聚类分析。与多元分析的其它分析方法相比,聚类分析方法较为粗糙,理论上还不够完善,正处于发展阶段。但是,由于该方法应用便利,分类
2、效果较好,因此越来越为人们所重视。这些年来聚类分析的方法发展较快,内容越来越丰富。判别分析与聚类分析都是探讨事物分类的基本方法,它们有着不同的分类目的,彼此之间既有区分又有联系。各种判别分析方法都要求对类有事先的了解,通常是每一类都有一个样本,据此得出判别函数和规则,进而可对其它新的样品属于哪一类作出推断。对类的事先了解和确定经常可以通过聚类分析得到。聚类分析的目的是把分类对象按肯定规则分成若干类,这些类不是事先给定的,而是依据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相像,而在不同类里的对象倾向于不相像。聚类分析能够用来概括数据而不只是为了找寻“自然的”或“实在的”分类。例
3、如,在选拔少年运动员时,对少年的身体形态、身体素养、生理功能的各种指标进行测试,据此对少年进行分类,分在同一类里的少年这些指标较为相近。类确定好之后,可以依据各类的样本数据得出选材的判别规则,作为选材的依据。又如,依据啤酒中含有的酒精成分、纳成分、所含的热量“卡路里”数值,可以对啤酒进行分类。聚类分析依据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样品进行聚类,R型聚类分析是指对变量进行聚类。本章我们主要探讨。型聚类。 6.2 离和相像系数在对样品(或变量)进行分类时,样品(或变量)之间的相像性是如何度量的呢?这一节中,我们介绍两个相像性度量一距离和相像系数,前者常用来度量样
4、品之间的相像性。后者常用来度量变量之间的相像性。样品之间的距离和相像系数有着各种不同的定义,而这些定义与变量的类型有着特别亲密的关系。通常变量按测量尺度的不同可以分为以下三类:(1)间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。(2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。(3)名义尺度变量:变量用一些类表示,这些类之间既无等级关系也多数量关系,如性别、职业、产品的型号等。我们这里主要探讨具有间隔尺度变量的样品聚类分析方法。一、距离设均为第i个样品的第j个指标,数据矩阵列于表6.1。每个样品有P个变量,故每
5、个样品都可以看成是RP中的一个点,个样品就是Hp中的n个点。在RP中需定义某种距离,第i个样品与第/个样品之间的距离记为d在聚类过程中,距离较近的点倾向于归为一类,距离较远的点应归属不同的类。所定义的距离d厂般应满足如下四个条件:(I)四0,对一切(IDdij=0,当且仅当第i个样品与第/个样品的各变量值相同;(III) dij=dji,对一切仃;(IV) dijdik+dkjf对一切AJ次。表6.1数据矩阵7量样限X2XP1孙22%2X2lX22n1乙2XnP常用的距离有如下几种:1 .明考夫斯基(MinkOWSki)距离第i个样品与第/个样品间的明考夫斯基距离定义为(6.2.1)1.hI.
6、这里4为某一自然数,这是一个最常用最直观的距离。当g=l时,4,(l)=f一,力,称为肯定值距离;Z(Xa-xjk),称为欧氏距离;=lA=I当4=2时,6/.(2)=WJ_*=1当4=00时,dij()=rr11xxrt-xjk|,称为切比雪夫距离。当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应干脆采纳明考夫斯基距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。最常用的标准化处理是,令,Xii-Xji=l,2,=l,2,p其中,焉二1.f/为第j个变量的样本均值,%=-1.t(%-焉)2为第J个变量的nr=n/=|样本方差。2 .马氏(MahaIanObi
7、S)距离第,个样品与第J个样品间的马氏距离为d,M)=(xi-xjySx(XTJ)O其中Xj=(X“,项2,,x,p),S为样本协方差矩阵。运用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关。不足之处是对马氏距离公式中的S,若始终不变,则往往显得不妥;若要随聚类过程而不断改变,则会有很多不便。3 .兰氏(1.anCe和WilIiamS)距离当勺0,=1,2,,J=I,2,时,则可以定义第i个样品与第j个样品间的兰氏距离为这个距离与各变量单位无关,但没有考虑变量间的相关性。由于它对大的异样值不敏感,故适用于高度偏斜的数据。4 .斜交空间距离由于样品的各个变量之间往往存在不同程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 04 聚类分析