K—means聚类的R函数和应用.docx
《K—means聚类的R函数和应用.docx》由会员分享,可在线阅读,更多相关《K—means聚类的R函数和应用.docx(9页珍藏版)》请在第壹文秘上搜索。
1、学生实验报告课程名称数据挖掘实验名称K一means聚类的R函数和应用实验目的在r中实现K-Means聚类、PAM聚类和层次聚类,并对他们进行比较分析,得出最优聚类。二、实验环境R软件的集成平台Rstudio.三、实验原理1. K-Means聚类(1)原理:KMeans聚类将所收集到的具有P个数值型变量(即聚类变量)的样本数据看成P维空间上的点,并以此定义某种距离。(2)在r中的实现:kmeans(x二数据矩阵,centers二聚类数目或初始类质心,iter,max=10,nstart=l)2. PAM聚类(1)原理:PAM是Partitioningaroundmedoids的英文缩写,也是一种
2、基于质心的划分型聚类算法。PAM聚类与K-Means聚类的主要不同在于:第一,距离测度采用绝对距离。聚类目标是找到类内绝对距离之和最小的类。第二,增加了判断本次迭代类质心合理性的步骤。(2)在I中的实现:Panl(X=矩阵或数据框,k=聚类数目K,medoids二初始类质心向量,do.SWaP=TRUE/FALSE,Stand=TRUE/FALSE)3. 层次聚类(1)原理:层次聚类是将各个观测逐步合并成小类,再将小类逐步合并成中类乃至大类的过程。这类算法将空间中距离较近的多个观测点视为一个类,并基于联通性完成最终的聚类。得到的聚类结果一般为确定性的且具有层次关系。(2)在r中的实现:hclu
3、st(d二距离矩阵,method二聚类方法)四、实验内容及步骤(一)实验内容某年我国31个省级行政区(不包括港澳台)环境污染状况的经标准化处理的统计数据,包括生活污水排放量(xl)、生活二氧化硫排放量(x2)、生活烟尘排放量(x3)、工业固体废物排放量(x4)、工业废气排放总量(x5)、工业废水排放量(x6)0此外,还包括GDP水平(gdp)以及地理位置(ge。)。(二)实验步骤1.K-MeanS聚类、PAM聚类的实验步骤:指定聚类数目K;分别确定K个初始类质心;根据最近原则进行聚类;重新确定K个类质心;判断是否已经满足终止聚类算法的条件,如果没有满足则返回第三步。2.层次聚类的实验步骤:首先
4、将每个观测点自成一类;计算所有观测点彼此间的距离,并将其中距离最近的观测点聚成一个小类,形成。一1个类;再次度量剩余观测点和小类间的距离,并将当前距离最近的观测点或小类聚成一类;重复上述过程,不断将所有观测点和小类聚集成越来越大的类,直至所有观测点聚到一起,形成一个最大的类为止。五、数据处理及实验结论(1) K-Means聚类代码如下:setwd(,C:UsersUserDesktop,z)POData=read,table(环境污染数据.txt”,header二T)CluData=PoDataE,2:7#提取聚类变量xlx6set.seed(12345)C1uR=kmeans(x-CIuDa
5、ta,centers-4,nstart=30)ClUR$size#浏览各类包含的样本量CluRJcenters#浏览4类的类质心par(mfrow=c(2,1) ClUR$size#浏览各类包含的样本量1 4 19 2 6 CluR Scenters #浏览4类的类质心1234Xl 53.39250 15.06895 11.48000 26.91000x2x38.33500 7.9700015.09263 20.4326379.47000 69.4300039.77167 63.683334 1.42250 5.31000 59.88000 10.42833x5 6 36.78750 83.6
6、9250 13.37316 16.45105 33.07000 9.62000 56.67667 40.70000POData$ClUR=ClUR$CIUSter#将聚类解保存到PoData数据框的CluR域中plot(PoDataSCluR,pch=PoDataSCluR,ylab=类别编号“,xlab=省区Pinain二聚类的成员,axes*)#绘制个省区聚类解的序列图,不带坐标轴Par(IaS=2)#指定坐标轴文字转90度axis(l,at=l:31,labels=POData$PrOVinCe,cex.axis=0.6)#指定横坐标刻度文字为指定名axis(2,at=l:4,label
7、s=1:4,cex.axis=O.6)#指定列坐标刻度文字为聚类解编号box()IegendCtoprighr,cC第一类,第二类,第三类,第四类),PCh=I:4,cex=O.6)plot(CluRJcentersEl,type=T,ylim=c(0,82),xlab=聚类变量,ylab二组均值(类质心),main=各类聚类变量均值的变化折线图,axes*)#绘制第1个类的类质心变量取值折线图axis(l,at=l:6,labels=c(生活污水排放量,生活二氧化硫排放量,生活烟尘排放量,工业固体废物排放量,工业废气排放总量,工业废水排放量),cex.axis-0.6)box()IineS(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- means 函数 应用