数据挖掘与分析.pptx

资源ID：273296 资源大小：2.29MB 全文页数：35页
资源格式： PPTX 下载积分：10金币

快捷下载

账号登录下载

三方登录下载：

下载资源需要10金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

数据挖掘与分析.pptx

Python 数据挖掘与分析数据收集数据整理数据描述数据分析数据获取和收集从数据源获取：From Excelimport pandas as pdimport numpy as npdata1=pd.read_excel(”filename.xlsx)#使用pandas读取excelFrom CSV#ocding:utf-8import numpy as npimport pandas as pddf00=pd.read_csv(20161009.csv,delimiter=;)From 网页: urllib urllib2 httplib httplib2 import urllibimport redBytes = urllib.request.urlopen(http:/aaa.bbb.ccc/page).read()dStr = dBytes.decode() #在python3中urllib.read() 语句功能是将dBytes转换成Strm = re.findall(正则解析表达式, dStr) 获取并连接：#coding:utf-8import numpy as npimport pandas as pdprint =lcsv=lcsv.append(pd.read_csv(20161009.csv,delimiter=;,names=date,val,name,cop,acter,directer,type)lcsv.append(pd.read_csv(20161016.csv,delimiter=;,names=date,val,name,cop,acter,directer,type)lcsv.append(pd.read_csv(20161023.csv,delimiter=;,names=date,val,name,cop,acter,directer,type)lcsv.append(pd.read_csv(20161030.csv,delimiter=;,names=date,val,name,cop,acter,directer,type)print -nf=pd.concat(lcsv)print nf原理与要点：Concat的参数是一个 “列表”扩展：利用OS，浏览目录，获得 Filename List，利用遍历 Filename List，打开多个文件数据整理例如：整理、去空、去重、合并、选取、数据准备：重要准备：index，header，columnsheader-1header-2header-3header-4index-0index-1index-2index-3index-4index-5index-6index-7显示各要素: 显示索引显示列名显示数据的值显示数据描述数据清洗和整理例如：去空、去重、合并、选取、数据准备：显示各要素: 显示索引 df.index 显示列名 df.columns 显示数据的值 df.values 可以重构一个DataFrame扩展：rdf=pd.DataFrame(data,index=inxlst，columns=colst) 显示数据描述 df.describe ，简报数据清洗和整理去空、处理缺失：isnull(),notnull()#测试空(not null)值，返回True，Falsedropna()#dropna(axis=1,how=all),按列删除 all Na，缺省为axis=0，即按行df.fillna()#填充，inpalce，不产生副本#fillna(0)填充0，fillna(c1:v1,cx:vx)利用字典x列填充v#可以利用函数：mean、random.randon等等数据清洗和整理去重：duplicated()#测试重值，返回True，Falsedrop_duplicates ()#填充，inpalce，不产生副本#可利用列名列表，可以按列删除重复#take_last=True,保留最后一个记录数据整理选择方式: 行选择列选择区域选择筛选(条件选择)数据整理行选择: From Head： df.head(5) df:5 From Tail： df.tail(5) df-5:-1 Select i j：dfi:j+1选取后，也是df扩展：重构一个新的DataFrame数据整理列选择: 单列： df列名或 df.colname#不支持多列区域选择：1、行号-列名df.loc1:5, # 1-5行全部列df.loc:,列名x,列名y#所有行的 x，y两列数据整理区域选择：2、行-列，位置df.iloc1:5,x,y #x,y组成整型列表df.iloc:,列x,列y当然可以精确到一个数据df.locr,列名,df.ilocr,c,df.iatr,c条件筛选： df(df.index = u2014-01-01) & (df.val = 95) isin() 数据统计分析求票房收入均值： df.mean(columns = amount) 求票房大于3000万的影片名称： df amount3000000.filename 求票房大于3000万的影片数量： len(df amount3000000.filename)小于30000000万的票房影片数？数据统计分析票房前三甲： df.sort(columns = amount)？:？.filmname #ascending =True(default),增序sum（和）、median（中位数）、var（方差）、std（标准差）、mean（平均数）、quantile（分位数）、min（最小）、max（最大）、describe（列数据简报）、count（非空计数）、pct_change（百分数变化）数据统计分析票房前三甲： df.sort(columns = amount)？:？.filmname #ascending =True(default),增序sum（和）、median（中位数）、var（方差）、std（标准差）、mean（平均数）、quantile（分位数）、min（最小）、max（最大）、describe（列数据简报）、count（非空计数）、pct_change（百分数变化）数据分组group by 操作的执行顺序（Splitting）按照一些规则将数据分为不同的组；（Applying）对于每组数据分别执行一个函数；（Combining）将结果组合到一个数据结构中例如，分组然后求和print(objbox office.groupby(objmovie_name).size()grouped=objbox office.groupby(objmovie_name)grouped=objbox office.groupby(objdate,objmovie_name).sum()grouped=obj.groupby(objdate,objmovie_name).sum()mean=grouped.mean()数据合并MergeMerge的形式 Append 加行到DataFrame同型（列相同）dataframe可添加至尾部 Concat 连接pandas对象 concat参数是列表lcsv=lcsv.append(pd.read_csv(20161009.csv,delimiter=;,names=date,val,name,cop,acter,directer,type)lcsv.append(pd.read_csv(20161016.csv,delimiter=;,names=date,val,name,cop,acter,directer,type)nf=pd.concat(lcsv)数据合并MergeMerge的形式 Join SQL类型的连接数据合并MergeMerge的形式 Merge的参数数据可视化Matplotlib绘图主要用于二维绘图画图质量高方便快捷的绘图模块绘图APIpyplot模块集成库pylab模块(包含NumPy和 pyplot中的常用函数)数据可视化Matplotlib绘图import numpy as npimport matplotlib.pyplot as pltls_x=0,1,2,3,4,5,6,7ls_y=1,2,11,5,6,8,10,12plt.plot(ls_x,ls_y)plt.show()数据可视化Matplotlib绘图import numpy as npimport matplotlib.pyplot as pltt=np.arange(0.,4.,0.1)plt.plot(t,t,t,t+2,t,t*2)plt.show()数据可视化绘图样式文字和字体属性坐标轴和网格属性子图(axes) 子区(subplots) 色彩和样式线宽每英寸点数图像大小pl.figure(figsize=(8,6),dpi=100)数据可视化 import numpy as npimport matplotlib.pyplot as pltls_x=0,1,2,3,4,5,6,7ls_y=1,2,11,5,6,8,10,12plt.plot(ls_x,ls_y)plt.title(picture title)plt.xlabel(x label)plt.ylabel(y label)plt.show()#plt.plot(ls_x,ls_y,g-)数据可视化上图的绘制命令：plt.1(list_i,list_o,2)1,2填什么？数据可视化 import matplotlib.pyplot as pltimport numpy as npt=np.arange(0.,4.,0.1) plt.plot(t,t,color=red,linestyle=-,linewidth=3,label=t) plt.plot(t,t+2,color=green,linestyle=:,marker=*,linewidth=3,label=t+2) plt.plot(t,t*2,color=blue,linestyle=,marker=+,linewidth=3,label=t*2) plt.legend(loc=upper left)plt.show()#loc=best数据可视化 import numpy as npimport matplotlib.pyplot as pltls_x=0,1,2,3,4,5,6,7ls_y=1,2,11,5,6,8,10,12plt.plot(ls_x,ls_y) #plt.bar(ls_x,ls_y)plt.title(picture title)plt.xlabel(x label)plt.ylabel(y label)plt.show()数据可视化子图-subplots（便于比较）数据可视化子图-subplots（便于比较） import matplotlib.pyplot as pltimport numpy as np#pl.figure(figsize=(8,6),dpi=100)t=np.arange(0.,4.,0.1) plt.subplot(211)plt.plot(t,t,color=red,linestyle=-,linewidth=3,label=t) plt.subplot(212)plt.plot(t,t+2,color=green,linestyle=:,marker=*,linewidth=3,label=t+2) plt.plot(t,t*2,color=blue,linestyle=,marker=+,linewidth=3,label=t*2) plt.legend(loc=upper left)plt.show()数据可视化子图-subplots（便于比较）扩展：用2*2子图的方式绘制：a*X，a*X

注意事项

本文（数据挖掘与分析.pptx）为本站会员（p**）主动上传，第壹文秘仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知第壹文秘（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。