数据挖掘实验指导书.docx

资源ID：786965 资源大小：131.56KB 全文页数：15页
资源格式： DOCX 下载积分：5金币

快捷下载

账号登录下载

三方登录下载：

下载资源需要5金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

数据挖掘实验指导书.docx

I.t.t*Lt-t数据挖掘实验指导书实验一：数据分析与可视化1实验二：数据挖掘分析8实验一：数据分析与可视化一、实验目的和要求1 .熟悉掌握PythOn编程基础2 .熟悉掌握利用Python进行数据分析3 .熟悉掌握利用Python进行可视化的方法二、实验内容和原理1 .使用Python进行数据导入2 .使用python进行数据的探索性分析3 .使用Python进行数据可视化分析三、主要仪器设备计算机1台，本机型号_HPPavilionNotebook15-bc5xxx；Python版本：3.7；matplotlib版本：3.5.1。四、实验步骤1 .绘制散点图散点图是指在回归分析中，数据点在直角坐标系平面上的分布图，散点图表示因变量随自变量而变化的大致趋势，据此可以选择合适的函数对数据点进行拟合。步骤如下：(1)导入相关模块importmatplotlib.pyplotaspitimportnumpyasnp(2)使用随机数模块生成100组数据点# 随机产生100个02之间的X,y坐标X=np.random,rand(n)*2y-np.random,rand(n)*2(3)设置散点图的属性：颜色、面积、透明度colors-np»random,rand(n)# 随机产生100个01之间的颜色值area=np.pi*(10*np.random,rand(n)*2# 点的半径范围:010(4)绘制并显示散点图pit.scatter(x,y,s-area,c=colors,alpha-0.5,marker='o')pit.show()2 .绘制直方图直方图是一种可视化表示数据在连续间隔或者特定时间段内容的分布情况;直方图又称为质量分布图，属于条行图的一种；直方图X轴表示数据类型，纵轴表示分布情况，每个数据宽度可以任意变化。步骤如下：导入IlIatPIotlib.pyplot模块准备数据，可以使用numpyPandaS整理数据调用PyPIOt.hist()绘制直方图(1)导入相关模块(2)使用随机数模块生成待可视化的学生身高数据1000条；(3)调用PyPlOt.hist()绘制直方图,bars=100；(4)直方图名称为你的姓名，X轴标签为身高，y轴标签为数量；(5)显示直方图；(6)改变直方图的透明度，再绘制一幅直方图。3 .绘制箱线图箱线图反映数据分布特征的统计量，能提供有关数据位置和分散情况的关节信息，尤其在比较不同特征时，更可表现其分散程度差异。步骤如下：(1)导入相关模块：numpymatplotlib.pyplotpandas(2)使用随机数模块生成100行5列的DataFrame;(3)各列属性名为'A','B','C','D,'E'')(4)绘制并显示箱线图。(5)箱线图名称为你的姓名4 .绘制词云“词云”是对网络文本中出现频率较高的“关键词”予以视觉上的突出，形成“关键词云层”或“关键词渲染”，从而过滤掉大量的文本信息，使浏览网页者只要一眼扫过文本就可以领略文本的主旨。“词云”就是数据可视化的一种形式。给出一段文本的关键词，根据关键词的出现频率而生成的一幅图像，人们只要扫一眼就能够明白文章主旨。步骤如下：(1)导入相关模块frompyechartsimportoptionsasoptsfrompyecharts.chartsimportPage,WordCloudfrompyecharts.globalsimportSymbolType(2)自主构造需要可视化的词云，不少于20个词。(3)使用WordCIoudO方法，设置相关参数。c=WordCloudOc.add("”,words,word_size_range=20,80)c.set_global_opts(title_opts=opts.TitleOpts(title="WordCloud-基本示例)c.render_notebook()五、实验数据记录和处理代码记录行号代码1importmatplotlib.pyplotaspit2importnumpyasnp3n=1004x=np.random,rand(n)*25y=np.random,rand(n)*26colors-np.random,rand(n)7area=np.pi*(10*np.random,rand(n)*28area=np.pi*(10*np.random,rand(n)*29pit.scatter(x,y,s=area,c=colors,alpha=0.5,marker='。')10pit.show()1importmatplotlib.pyplotaspit2importnumpyasnp3yHeight=np.random,randint(150,200,500)4pit.hist(y_Height,bins=50)5pit.title("曹森国")6pit.Xiabel("Height")7pit.ylabel("Counts")8pit.reParams,font,sans-serif,二'SimHei,9pit.reParams,axes,unicodeminus,=False10pit.show()1importnumpyasnp2importmatplotlib.pyplotaspit3importpandasaspd行号代码4np.random,seed（2）5df=pd.DataFrame（np.random,rand（10,4）6columns=,A,B,C,D,7pit.reParams,font,sans-serif,=,Simhei,8pit.reParams,axes.UniCodeIIinUS'=False9pit.boxplot（df）10pit.title（"曹森国"）11pit.show（）1frompyechartsimportoptionsasopts2frompyecharts.chartsimportPage,WordCloud3frompyecharts.globalsimportSymbolType4words=（曹森国，9925）,（直方图，1115）,（箱线，8625）,（词云，7151）,（数据，4500）,（挖掘，3054）,（矩阵，9545）,（乘法，2222）,（实验，8888）,（专周，4445）,（app，6014）,（应用，8125）,（结束，3334）,（奶茶，2224）,（有事，4154）,（没事，6194）,（GG，8774）,（爱惜，9994）,（模块，2544）,（知道，6664）,（基本，5554）,（按摩师，4444）,（暗示，2224）5c=WordCloudO6c.add（，words,word_size_range=20,80）7c.set_global_opts（title_opts=opts.TitleOpts（title="WordClouCr）8c.render（"词云.htm/）六、实验结果记录（贴图）Figure1X«÷÷÷Q三Is)1.散点图：2.直方图:3.箱线图:奶茶£妒GG回其本卷词云号模块模块4.词云：实验二：数据挖掘分析一、实验目的和要求1 .熟悉掌握Python编程基础2 .熟悉掌握利用Python进行数据分析3 .熟悉掌握利用Python进行数据挖掘的方法二、实验内容和原理1 .使用PythOn进行数据导入2 .使用python进行数据的探索性分析3 .使用PythOn进行数据挖掘的方法三、主要仪器设备计算机1台，本机型号_HPPavilionNotebook15-bc5xxx；Python版本：3.7；用到的库的版本：PandaSL3.7mmpyl.2L5skleam四、实验步骤本次实验将综合使用之前学习的知识，实现对肿瘤数据breast-CanCer-WiSCOnSirLdata的分析和预测。步骤如下：1 .导入相关模块：importpandasaspdimportnumpyasnp2 .读入数据breast-cancer-wisconsin.data,各列属性值为下面column_names中的值，读取之后显示前5行以查看数据。column-names=,number,ClJhickness','Unif-cell-size,Unif_cell_shape,Marg_Adhesion,Sing-epith-cell-size,Bare-nuclei,Bland_chromation,Norm-nuclei,Mitoses,Class,data=pd.read_csv(,breast-cancer-wisconsin.data,names=co1umn_names)8/6display(data,head()3 .利用describe。查看数据的基本统计信息4 .统计数据属性中的空缺值isnull().sum()5 .如果数据中存在空缺数据需要丢弃或填充。该数据集中包含了16个缺失值用“？”标出。因此要删除有缺失值的数据。data=data.replace(to_replace-,?,value=n.nan)data=data.dropna(how三,any,)print(data,shape)6 .将数据划分为训练集和测试集fromsklearn.model_selectionimporttrain_test_split#划分训练集与测试集X_train,X_test,y_train,y_test=train_test_split(datacolumn_names1:10,datacolumn_names10,test_size-O.25,random_state-33)Print('训练样本的数量和类别分布：n,y_train.value_counts()7 .标准化数据，每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值主导。fromsklearn.preprocessingimportStandarclScalerSs=StandardScalerOX_train=ss.fit_transform(X_train)X_test=ss.transform(X_test)print(X_train.meanO)8 .用LogiStiCRegreSSion构建分类器。fromsklearn.

注意事项

本文（数据挖掘实验指导书.docx）为本站会员（p**）主动上传，第壹文秘仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知第壹文秘（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。