《数据采集技术(初级)》实验手册项目5:爬取网络数据.docx
《《数据采集技术(初级)》实验手册项目5:爬取网络数据.docx》由会员分享,可在线阅读,更多相关《《数据采集技术(初级)》实验手册项目5:爬取网络数据.docx(10页珍藏版)》请在第壹文秘上搜索。
1、任务1使用Requests库爬取小说网站任务描述本任务是使用Requests库爬取214玫瑰恋区所有章节的网址,之后再将小说中每章节的内容爬取下来,保存在本地,实现本任务的思路如下:(1)使用requests获取网页源代码。(2)使用正则表达式获取内容。(3)使用文件进行操作。任务步骤第一步打开小说网站,找到“214玫瑰恋区”小说的位置。如下图所示。第二步使用requests获取网页源码start_url=,http:/book38487defget_source(url):IlIffl获取网页源代码。:paramurl:网址:return:网页源代码html=requests.get(url
2、)returnhtml.content.decode(,gbk,)#这个网页需要使用gbk方式解码才能让中文正常显示第三步右键选择“查看网页源代码”,如下图所示。BreatheInEssentialOilsOPEN乖乖费尔作品集介:应叵()Ah*fflEW5211国明星李俊的成百Q手切二年出学生宁儿,国一次今外军碣结r.:5Aft向U子头忖扑的易世:育人说的是独生子.有人说也是遗谖.色育人诧他是“豪独子.但Wg(E)Ctd*R了JlW月有为CtfkS政11(E).CtruP飞生H鬼VS小魔女第二我被他瞪了M三W三如。9成中文(而体)差点儿没命第六宣大闹直除蔼七宣l*RKlftS5SCuuu好友
3、被多架明的联LsSrBlIi三IT5ST-第四步点击之后效果如下图所示。正文tr-Sttdwidth-m25%,Xairef-187730.html第二堂ref”187731.htmT籥三章tdwidth-*,25*wXaIref-187732.htm第四章ahref-,18773html。第五章ahref-18773html,第六章ahref=*18773html”第七章第八章ahref-18773html第九章第十章&bsp;4cnbsp:飞车ItilVS小魔女被他吻了有位帅哥宜取我a美里理身秀爰点儿没命大用医院/aX/td突来笠故他的后妈是我西好友被绑架特别的礼物由于网址存在于va标签中
4、,但va标签本身没有特殊的标识符来区分章节的链接和其他的普通链接,因此需要使用先抓大再抓小的技巧。构造正则表达式,先提取出包含每一章链接的一大块内容,再对这一大块内容使用正则表达式提取出网址。由于源代码中的网址使用的是相对路径,因此需要手动拼接为绝对路径,代码如卜丁A34353638394o414243444546484985152535455565758596o616263646566676869defget_toc(html):获取每一章链接,储存到一个列表中并返回。:paramhtml:目录页源代码:return:每章链接toc_url_list=toc_block=re.findall
5、(正文(.*?)Ihtml,re.S)0toc_url=re.findall(,href=(.*?),ttoc_block,re.S)forurlintoc_url:toc_url_list.append(start_url+url)returntoc_url_list第五步点击“第一章”,查看源码,如下图所示。tdheItht-alpyleftOccolor-WbFFFF?ftnbsp.ftnbs,ahrefhttps/HHi5M)-Mt.ahret-index.htacntabletablevdth三*880*border*。alit11三*center*cellpaddintdvdth*
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据采集技术初级 数据 采集 技术 初级 实验 手册 项目 网络