你正在下载：《

Python网络爬虫实习报告python实习报告Word格式文档下载.docx

》 [预览]

格式：DOCX ，页数：7 ，大小：112.22KB ,
资源ID：22002105 下载积分：3 金币

快捷下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

加入VIP,免费下载

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.bdocx.com/down/22002105.html】到电脑端继续下载（重复下载不扣费）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

本文（Python网络爬虫实习报告python实习报告Word格式文档下载.docx）为本站会员（b****8）主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（发送邮件至service@bdocx.com或直接QQ联系客服），我们立即给予删除！

Python网络爬虫实习报告python实习报告Word格式文档下载.docx

1、元标签五、数据爬取实战（豆瓣网爬取电影数据）1分析网页 # 获取html源代码def _getHtml（）: data = pageNum = 1 pageSize = 0 try: while （pageSize = 125）: # headers = User-Agent:Mozilla/5.0 （Windows NT 6.1） AppleWebKit/537.11 （KHTML, like Gecko） Chrome/23.0.1271.64 Safari/537.11, # RefererNone #注意如果依然不能抓取的话，这里可以设置抓取网站的host # # opener = u

2、rllib.request.build_opener（） # opener.addheaders = headers url = https:/movie.douban./top250?start= + str（pageSize） + &filter= + str（pageNum） # datahtml%s % i =urllib.request.urlopen（url）.read（）.decode（utf-8） data.append（urllib.request.urlopen（url）.read（）.decode（） pageSize += 25 pageNum += 1 print（p

3、ageSize, pageNum） except Exception as e: raise e return data2爬取数据def _getData（html）: title = # 电影标题 #rating_num = # 评分 range_num = # 排名 #rating_people_num = # 评价人数 movie_author = # 导演 data = # bs4解析html soup = BeautifulSoup（html, html.parser for li in soup.find（ol, attrs=class grid_view）.find_all（li

4、）: title.append（li.find（span, class_=title）.text） #rating_num.append（li.find（div, class_=star）.find（rating_num range_num.append（li.find（picem #spans = li.find（）.find_all（ #for x in range（len（spans）: # if x headmeta charset=UTF-8titleInsert title here/headbodyh1爬取豆瓣电影h4 作者：刘文斌时间： + nowtime + hrtable

5、 width=800px border=1 align=centertheadtrthfont size=5 color=green电影/th #f.write（th width=50px评分排名100px评价人数导演/theadf.write（tbody for data in datas: for i in range（0, 25）:td style=color:orange;text-align:center%s % datai） # f.write（blue;red;black;/tbody/table/body/html f.close（）if _name_ = _main_ dat

6、as = htmls = _getHtml（） for i in range（len（htmls）: data = _getData（htmlsi） datas.append（data） _getMovies（datas）4数据保存、展示结果如后图所示：5技术难点关键点数据爬取实战（搜房网爬取房屋数据）from bs4 import BeautifulSoupimport requestsrep = requests.get（newhouse.fang./top/rep.encoding = gb2312 # 设置编码方式html = rep.textsoup = BeautifulSoup（html, html.parserf = open（/fang.htmlcenter新房成交TOP3table border=1px width=1000px height=h2房址成交量均价5px color=red % name） color=blue % chengjiaoliang） % junjia） print（name）六、总结教师评语：成绩：指导教师：