聚类算法有哪些?又是如何分类.docx
《聚类算法有哪些?又是如何分类.docx》由会员分享,可在线阅读,更多相关《聚类算法有哪些?又是如何分类.docx(5页珍藏版)》请在第壹文秘上搜索。
1、聚类分析是一个较为严密的数据分析过程.从聚类对象数据源开始到得到聚类结果的知识存档,共有四个主要研究内容聚类分析过程:1984年,Aldenderfer等人提出了聚类分析的四大功能:一是数据分类的进一步扩展;二是对实体归类的概念性探索;三是通过数据探索而生成钱说;四是一种基于实际数据集归类假说的测试方式,在很多情况卜,样本数据集并没有分类,即每一个数据样本都没有分类标签,一般而言,聚类指将没有分类标签的数据集,分为若干个挟的过程,是一种无监督的分类方法。实际上,很难对聚类下一个明确的定义。2001年.Everill等人甚至指出提出聚类的正式定义不仅困难而且也没有必要,因为聚类分析本身是种建立在
2、主观判断刘础上的相对行之有效的方法.Hansen也已经作了数学上的阐述,给定一个数据样本集:C-X,X?,,X,X;为=(町,町,,.5)这里,Xj表示一个向量,称为样本点或者样本:Xjd表示一个变量,通常称为属性、特征、变量或维等.划分聚类将数据集分为个族.需满rC=C1,C2,-,Cj;KNCi0;i=1,2,,KUC=Xil足:而层次聚CiCj=0;j=1,2,,K,ij类是将数据集构建成一种树状的结构.即:=4,4,必;QWNJHm,Cj町m/CiCCjorCiCj=0;m,l=1,2,Q,ij由于聚类分析碰于一个交叉研究领域,融合了多个学科的方法和技术故可以从多种角度、多个层次来分析
3、现有的聚类分析算法。AgarWal关于数据聚类的经典长文从统计模式识别的视角总结了1999年之前的经典模式聚类方法;QianZhou从聚类标准、聚类表示及算法框架角度分析了多个流行的聚类算法:Crabmeier和RUdoIPh从数据挖掘的角度(如相似度和距离度量的严格区分、应用到聚类中的相关优化标准等)分析了一些聚类方法,还讨论了IBM公司的智能挖搦器(IntelIigentMiner)中聚类算法的使用演示等等.传统的聚类算法大致可以分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。近年来,贵子聚类方法、谱聚类方法、粒欧聚类方法、概率图聚类方法、同步聚类方法等也流行起
4、来.聚类算法的研究已经开展f几十年,迄今为止,已公开发表了近!种聚类算法,但没有一种说类算法敢声称是通用的、普适的。聚类算法的分类聚类算法一般可以用基于划分、基于层次、见于密度、掂于网格、基丁模型、越于图等方式来诳行分类。基于划分的聚类算法居丁划分的猿类算法通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小位时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子弟就是一个聚类。多数基于划分的聚类修法都是非常高效的,但需要事先给定一个在聚类分析前碓以确定下来的聚类数目.k-means法和FCN(FUZZyCMeHnS)算法是该类型中最著名的两个算法。step1-2-101
5、2dimension1KMeans聚类基于层次聚类算法层次聚类方法使用一个距曲矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图,其时间复朵度至少为T=0(n21ogn)s层次聚类算法通常分为两种:第一种是凝聚的层次聚类和法,它首先把每个数据点看作是一个聚类,然后以一种自底向上的方式通过不断地选择最近邻居聚类对的合并操作,城终可以构造出一棵代表若该数据集聚类结构的层次树.第二种是分裂的层次聚类律法它首先把所有的数据点看作是一个聚类,然后以一种以自顶向下的方式通过不断地选择域松散筏进行分裂煤作,班终可以构造出一株代表着该数据集聚类结构的层次树.基于密度的聚类算法基于划分的聚类克
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法 哪些 如何 分类