1、Python网络爬虫实习报告python实习报告Pythn网络爬虫实习报告一、选题背景 - 2 -二、爬虫原理 2 -三、爬虫历史与分类 2四、常用爬虫框架比较-5 -五、数据爬取实战(豆瓣网爬取电影数据) -2爬取数据 7-3数据整理、转换 1-4数据保存、展示- 125技术难点关键点12 六、总结 - 一、 选题背景二、 爬虫原理三、 爬虫历史与分类四、 常用爬虫框架比较Scrap框架:Scra框架就是一套比较成熟得Pytho爬虫框架,就是使用Pthon开发得快速、高层次得信息爬取框架,可以高效得爬取eb页面并提取出结构化数据。crap应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试
2、等.Crawle框架:rwley也就是Pytho开发出得爬虫框架,该框架致力于改变人们从互联网中提取数据得方式。Portia框架:oti框架就是一款允许没有任何编程基础得用户可视化地爬取网页得爬虫框架。newsppr框架:wspapr框架就是一个用来提取新闻、文章以及内容分析得Pythn爬虫框架.Ptn-gose框架:Pythn-gose框架可提取得信息包括:1文章主体内容;文章主要图片;文章中嵌入得任eYutubeVieo视频;4元描述;元标签五、数据爬取实战(豆瓣网爬取电影数据)分析网页# 获取htl源代码def _gtHtml(): ata = ageNm = pageSize = 0
3、try: whle (ageSiz = 1): # eadrs serAet:Mozil/5、0 (Windows T 6、1) ApeWeKt/5、1 (KHTM, likeGeck) Crome/23、0、127、64 Sfari/537、, # efeer:on注意如果依然不能抓取得话,这里可以设置抓取网站得ost penerurlli、eqet、build_e() # opener、addhds heades l= ” + st(pagSiz) +”iltr + s(peNum) datahml%s i urlb、reuest、urop(ur)、ead()、decode(ut) daa
4、、append(urli、equst、urlope(ur)、ead()、ecode(”f8)) pageie +5 pNm += 1 prnt(geSize, pageum) excep Eceptin a e: rse e retur data2爬取数据def_getData(html): title = #电影标题 #rati_um 评分 rngenum = # 排名 raingpeop_num= # 评价人数 ovie_athor= # 导演 daa = # s4解析hml oup BeautiuSp(htm, ”html、parser”) for lin sp、find(”l”, tr
5、=clas: rid_view)、final(li): ite、appen(li、fnd(san, cas=”tit)、ext) rting_u、append(li、fin(dv”,class_=st)、find(”spa,class_rating_nu)、ext) ragenum、apen(li、fid(di”, classpi)、fin(em)、text) #span = l、find(iv”, cas=star)、find_l(an) #fr xinrnge(len(sas): f ”) 、wrte(”hadtitleInsert title here/ad) f、wrte(”bd”)
6、、write(”1爬取豆瓣电影) f、wri(” 作者:刘文斌/h) f、wrte(”h4时间: + nwtme + ”/h”) f、wie(”) f、rte() f、wrte(tha”) f、wite(t) f、writ(”tfont sie olor=geen电影fn size= olr=green排名fo/th”) #f、ite(t width=00pxfont size5 olor=green评价人数font siz5 color=gren导演font/th”) f、wre(”) f、rte(”) for data in data: for irage(,25): f、write(t”
7、) f、write(% datarig_num) 、writ(tdsyecor:ed;textlgn:nerstd” %dataange_numi) # f、wi(d style=coor:ble;tex-alig:cene%s/td” %dtaating_poplemi) f、write(”td stle=colr:lk;extlgn:centers % atamviautor) f、write(/tr) f、wrie(”tbod)f、write(/had) f、wrie(”/ale) f、wt(”boy) 、write(/t”) f、close()f_ae_=_mi_: data = hm
8、ls = _getHml() or in rang(ln(htmls)): dat= _getData(htls) datas、apend(data) _gtMovies(datas)数据保存、展示结果如后图所示:5技术难点关键点数据爬取实战(搜房网爬取房屋数据)o bsipotBautifloupimpot requestsp reques、get()rep、eodng = b2312 设置编码方式html=r、exoup = ButifulSup(html, h、parser)f = oe(F:/fng、html,w,encoding=u8)f、writ(”ht)f、wrie(aeta c
9、hrse=UTFInsr ite here”)f、rie(cterh1新房成交OP”)f、rte(tborder1px width=10x eig=800p in=cntetr)、wte(2房址/t)f、wrte(th2成交量/h2/th)f、wit(”均价/h/r”)for iin sp、find(”ul,clas_=”ul02)、findal(l”): nm=li、ind(”div”,lss_=btext”)、find(”)、tet hnjioliang=li、fnd(a”,la=rdf3”)、x y: ujia=li、ind(”v,cs_=hte)、find(p,clsray9”)#、text、eplace(。, 平方米) excet Exceptiona: junia、fd(di,class_=gray9)#、tex、repla(,平方米) 、writ(trd lin=cetefont sze=5px colr=bue%s/ % chengjiaiag) 、rte(tligncenter”)六、总结教师评语:成绩: 指导教师:
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1