你正在下载：《

Python网络爬虫实习报告Word文档格式.docx

》 [预览]

格式：DOCX ，页数：15 ，大小：58.40KB ,
资源ID：13060659 下载积分：3 金币

快捷下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

加入VIP,免费下载

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.bdocx.com/down/13060659.html】到电脑端继续下载（重复下载不扣费）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

本文（Python网络爬虫实习报告Word文档格式.docx）为本站会员（b****9）主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（发送邮件至service@bdocx.com或直接QQ联系客服），我们立即给予删除！

Python网络爬虫实习报告Word文档格式.docx

1、Portia 框架:Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper 框架:newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。Python-goose 框架：Python-goose 框架可提取的信息包括：文章主体内容;2文章主要图片;3文章中嵌入的任 heYoutube/Vimeo 视频;4元描述;5元标签五、数据爬取实战（豆瓣网爬取电影数据）1 分析网页# 获取 html 源代码def getHtml（）: data = pageNum = 1 pageSize = 0 try: while （pageS

2、ize = 125）: # headers = User-Agent:Mozilla/5.0（ Windows NT 6.1） AppleWebKit/537.11 （KHTML, like Gecko） Chrome/23.0.1271.64 Safari/537.11, # RefererNone #注意如果依然不能抓取的话，这里可以设置抓取网站的host # # opener = urllib.request.build_opener（） # opener.addheaders = headers url = + str（pageSize） + &filter= + str（pageNu

3、m） # datahtml%s % i =urllib.request.urlopen（url）.read（）.decode（utf-8） data.append（urllib.request.urlopen（url）.read（）.decode（utf- 8） pageSize += 25 pageNum += 1 print（pageSize, pageNum） except Exception as e: raise e return data 2 爬取数据def getData（html）: title = # 电影标题 #rating_num = # 评分 range_num =

4、# 排名 #rating_people_num = # 评价人数 movie_author = # 导演 data = # bs4 解析 html soup = BeautifulSoup（html, html.parser for li in soup.find（ol, attrs=class grid_view）.find_all（li）: title.append（li.find（span, class_=title）.text） #rating_num.append（li.find（div, class_=star）.find（rating_num range_num.append

5、（li.find（picem #spans = li.find（class_=）.find_all（ #for x in range（len（spans）: # if x headmeta charset=UTF-8titleInsert title here/headbodyh1爬取豆瓣电影h4作者：刘文斌时间： + nowtime + hrtable width=800px border=1 align=centertheadtrthfont size=5 color=green电影/font/th #f.write（th width=50px评分 f.write（排名100px评价人数/thead） f.write（tbody for data in datas: for i in range（0, 25）: f.write（td style=color:orange;text-align:center%s % datai） # f.write（td style=blue; f.write（red;i）