Python网络爬虫实习报告python实习报告文档格式.docx

资源描述

Python网络爬虫实习报告python实习报告文档格式.docx

《Python网络爬虫实习报告python实习报告文档格式.docx》由会员分享，可在线阅读，更多相关《Python网络爬虫实习报告python实习报告文档格式.docx（7页珍藏版）》请在冰豆网上搜索。

Python网络爬虫实习报告python实习报告文档格式.docx

文章主要图片；

文章中嵌入得任ｈeYｏutube／Viｍeo视频；

4〉元描述；

〈５〉元标签

五、数据爬取实战（豆瓣网爬取电影数据）

１分析网页　

#获取htｍl源代码

def_＿gｅtHtml（）：

　　　ｄata=　[]ﻫｐageNｕm=１

　pageSize=0

try:

ﻫwhｉle（ｐageSizｅ〈=1２５）：

　　　　　　#ｈeadｅrs＝　{’Ｕser—Aｇeｎt'

：

’Moziｌlａ/5、0（WindowsＮT6、1）AｐpｌeWeｂKｉt/5３７、１1（KHTMＬ，like　Geckｏ）Cｈrome/23、0、127１、64Sａfari/537、１１’，

　　　#’Ｒefeｒer’:

Ｎonｅ　＃注意如果依然不能抓取得话,这里可以设置抓取网站得ｈost

　　　＃}ﻫ　　　　＃　ｏpener　＝　urlliｂ、ｒeqｕeｓt、build_ｏｐｅｎeｒ（）

　　#opener、addhｅａdｅｒs＝［headeｒs］ﻫ　　　ｕｒl　=＂”+stｒ（pagｅSizｅ）+　”＆ｆiltｅr＝＂+sｔｒ（pａｇeNum）

　＃data［'

hｔml%s’％　i]＝urlｌｉb、reｑuest、urｌopｅｎ（urｌ）、ｒead（）、decode（"

utｆ—８"

）ﻫ　　　　daｔa、append（urlｌiｂ、ｒequｅst、urlopeｎ（urｌ）、ｒead（）、ｄecode（”ｕｔf－8＂））

　　　　pageＳiｚe+＝　２5ﻫ　　　pａｇｅNｕm+=1ﻫprｉnt（ｐａgeSize,pageＮum）

excepｔEｘceptiｏnaｓe:

　rａｉsee

　returｎdata

2爬取数据

def　_＿getData（html）:

　　title=　［］#　电影标题ﻫ　　#ratiｎｇ_ｎum＝[］＃评分ﻫrａnge＿num=　［］#排名ﻫ　＃raｔing＿peopｌｅ_num　=[］　#评价人数

　ｍovie_aｕthor　=[]#导演ﻫdaｔa={}

　#ｂs4解析hｔmlﻫｓoup＝BeautiｆuｌSｏｕp（htmｌ，”html、parser”）ﻫforli　ｉnsｏｕp、find（”ｏl”,ａtｔrｓ=｛'

clasｓ’：

ｇrid_view'

}）、finｄ＿alｌ（"

li"

）:

ｔitｌe、appenｄ（li、fｉnd（"

sｐan"

cｌaｓs＿=”titｌｅ"

）、ｔext）

　＃rａting_ｎuｍ、append（li、finｄ（"

dｉv”，　class_='

stａｒ'

）、find（”spaｎ"

，　class_＝'

rating_nuｍ＇）、ｔext）

　　raｎge＿num、aｐpenｄ（li、fiｎd（"

diｖ”，class＿＝’piｃ'

）、finｄ（"

em＂）、text）ﻫ　　#spanｓ=lｉ、find（"

ｄiv”，cｌasｓ＿=’star’）、find_ａlｌ（＂ｓｐan"

）ﻫ　　#fｏrx　in　rａnge（len（sｐaｎs））：

　　　＃ｉfｘ<

=2:

ﻫ　　　#　pａｓsﻫ　　#eｌse：

　　　　＃　　rａtｉnｇ_pｅｏple_num、append（sｐans［x]、stｒiｎｇ［—ｌｅn（ｓpans[x］、sｔrinｇ）:

—3]）

　　ｓtr=lｉ、ｆｉnｄ（”div"

claｓs_=’bｄ’）、find（”p"

　clasｓ＿=’'

）、teｘt、lstrip（）ﻫ　　　　inｄeｘ=sｔr、fｉｎd（"

主＂）ﻫif（indｅx　=＝－１）：

　　　index=str、finｄ（＂、、、＂）ﻫ　　　　　　prinｔ（li、ｆｉｎd（”dｉv”,cｌａｓs_='

ｐiｃ’）、find（”em"

）、tｅxt）

　　if　（li、find（"

div”,clａsｓ_=’pic’）、fｉnd（”ｅm”）、tｅxｔ　==２10）:

　　　　　　iｎdｅｘ＝　60

　#ｐrint（"

aaa”）ﻫ　　#　ｐrint（stｒ[4：

iｎdeｘ]）ﻫ　　ｍovｉｅ_authoｒ、append（str[4:

ｉndeｘ]）

dａtａ['

tｉtlｅ'

］　=titlｅ

　#daｔa['

raｔing_num'

］　=raｔiｎg_nuｍ

　datａ［＇rangｅ＿nｕm’]=　ｒａnge_numﻫ　#data[’ratiｎg＿ｐeｏplｅ＿nｕｍ’]=ｒatｉng＿peoplｅ_nuｍ

ｄａｔa［’moｖie_auｔhｏr’]＝movie_aｕthｏr

retｕrndatａ

3数据整理、转换

def＿_getMovｉeｓ（daｔa）:

　f=opｅn（'

//ｄouban_movｉe、html'

，　’ｗ’,ｅncｏding＝’utf—8’）

　f、ｗrite（"

〈html>

”）

　ｆ、wrｉte（”<

hｅad〉<

ｍｅtａcharset=’UTF－8’>

〈title〉Inserttitlehere<

/ｔitｌe>

＜/ｈｅad〉"

）ﻫ　f、wrｉte（”〈bｏdｙ>

”）ﻫ　ｆ、write（”〈ｈ1>

爬取豆瓣电影<

／ｈ１>

）

　　　f、wriｔｅ（”<

h4>

作者：

刘文斌〈/h４〉"

　　f、wrｉte（”〈h4>

　时间:

＂+nｏwtｉme+”＜/h４＞”）ﻫf、wｒiｔe（"

hr>

f、ｗrｉte（"

ｔable　width='

８00px’　border='

1’　aｌign=center>

f、wrｉte（"

〈thｅaｄ＞”）ﻫ　　　f、wｒite（"

tｒ〉"

）ﻫ　f、writｅ（”<

tｈ〉<

fontsiｚe＝'

５'

ｃolor=gｒeen〉电影<

/foｎt>

/tｈ〉”）ﻫ#f、wｒite（＂＜tｈｗidtｈ=＇５0px＇>

foｎtsｉzｅ='

5’cｏlor=gｒeｅn〉评分＜／font〉〈/ｔｈ〉"

　f、wriｔe（"

〈th　ｗiｄth='

5０px’>

〈fｏnｔsize=’５＇ｃolｏr=green〉排名〈／foｎｔ〉〈/th>

”）ﻫ　　#f、ｗｒite（＂〈tｈwidth=’１00px’〉〈fontsize＝'

ｃolor=green〉评价人数<

/foｎｔ〉〈/tｈ〉"

）ﻫ　ｆ、write（"

〈th>

〈fontsizｅ＝'

5＇color=grｅen>

导演〈／font〉＜/th＞”）

　　f、wrｉｔe（”<

/tr>

　f、ｗrｉte（"

／thｅad〉”）

f、ｗｒite（"

〈tbodｙ>

　　　fordataindataｓ:

ﻫforｉiｎ　raｎge（０,　25）:

ﻫ　　　f、write（＂〈tｒ〉”）

　　　f、write（＂<

tdstylｅ='

ｃolor:

oraｎge;

ｔext—align:

cenｔer’〉%s＜/td〉”%ｄata［'

tiｔle'

][i]）ﻫ　　　#　ｆ、wｒite（”〈tdsｔｙle＝’cｏｌｏr:

blｕe；

teｘｔ－aｌign：

cｅnteｒ＇〉%ｓ＜/ｔd>

　%data［＇rａｔiｎg_num'

]［ｉ]）ﻫ　　　ｆ、writｅ（"

td　sｔyｌe＝'

coｌｏr:

ｒed；

text—ａlｉgn：

ｃｅnｔer'

〉％s<

／td〉”%　data［’ｒange_num’］[i]）

　#f、wｒiｔｅ（"

＜ｔdstyle=’coｌor:

blｕe;

texｔ-aligｎ：

cenｔeｒ’〉%s〈/td＞”%　dａta[’ｒating_pｅople＿ｎｕm'

]［i］）

　　　　　f、write（”〈tdstｙle=’colｏr:

ｂlａｃk；

ｔext—ａlｉgn:

center’〉％s<

／td>

%ｄata[’mｏviｅ＿autｈor’］[ｉ]）

　f、write（"

〈/tr>

）ﻫ　f、wriｔe（”〈／tbodｙ〉"

f、write（"

＜/ｔhｅad〉"

）ﻫf、wriｔe（”<

/ｔaｂle〉＂）

f、wｒｉtｅ（”＜／boｄy〉"

）ﻫ　ｆ、write（＂〈/ｈtｍｌ〉”）ﻫf、close（）

ｉf　__ｎaｍe__　＝=　’_＿mａiｎ＿_’:

dataｓ=［］

hｔmls=__getHｔml（）ﻫ　　ｆori　ｉnrangｅ（lｅn（htmls））:

ﻫdatａ　=__getData（htｍls[ｉ]）ﻫ　　　datas、apｐend（data）

　　ﻫ＿_gｅtMovies（datas）

４数据保存、展示

结果如后图所示:

5技术难点关键点

数据爬取实战（搜房网爬取房屋数据）

ｆｒoｍbs４　iｍpoｒt　BｅautifｕlＳoupﻫimpoｒtrequestsﻫｒｅp　＝requeｓｔs、get（’'

rep、eｎｃodｉng="

ｇb2312"

　　　＃设置编码方式

html　=　rｅｐ、ｔexｔﻫｓoup=BｅａutifulSｏup（html,'

hｔｍｌ、parser’）

f=oｐeｎ（'

//fａng、html’,　’w＇,encoding=’uｔｆ—8’）

f、writｅ（”<

htｍｌ〉＂）

f、wriｔe（"

ｈｅaｄ〉〈ｍetachａrseｔ=’UTF—８'

＞<

tｉtle>

Insｅrｔｔitｌehere<

/titｌe>

/ｈead〉”）ﻫf、ｗrite（”〈bｏdy>

f、ｗriｔe（"

〈cｅｎter>

＜h1〉新房成交ＴOP３<

/h1＞〈／ceｎtｅｒ>

”）ﻫf、ｗrｉte（＂〈tａbｌｅ　ｂorder＝'

1px’width=’1００0ｐx’ｈeigｈｔ='

800pｘ’ａｌiｇn=cｅnteｒ〉＜tr〉＂）ﻫｆ、wｒｉte（"

th>

ｈ2〉房址<

/ｈ2>

〈/tｈ>

）ﻫf、wrｉte（"

〈th〉〈ｈ2〉成交量〈/h2〉〈/th〉"

f、wｒitｅ（”<

ｔh>

〈ｈ２＞均价<

/h2>

＜/ｔh〉〈/ｔr＞”）ﻫforｌi　insｏｕp、find（”ul"

claｓs_=”ul02"

）、find＿aｌl（＂lｉ”）:

　nａmｅ=li、ｆind（”div”,ｃlａss_="

ｐbtext”）、find（”ｐ”）、teｘt

　　　ｃhｅnｇjiａoliang=li、fｉnd（"

ｓｐaｎ”,ｃlaｓｓ＿="

rｅd—f3”）、ｔｅxｔ

　　ｔｒy:

ﻫｊuｎjia=li、ｆind（”ｄｉv"

，cｌａｓs_="

ｏhteｒ"

）、find（"

clａｓs＿＝"

ｇray—9”）#、text、ｒeplace（’。

Ｏ’，’平方米'

）ﻫ　exceｐtException　aｓ　ｅ:

ﻫ　　junｊia＝ｌｉ、fｉｎd（"

diｖ"

class_="

gray—9"

）#、texｔ、replaｃｅ（'

�Ｏ＇，　’平方米＇）ﻫ

ｆ、writｅ（"

tr〉<

ｔdａliｇn=ceｎteｒ〉<

ｆont　size='

5pｘ’cｏlｏr=rｅd＞%s〈/foｎt〉＜/ｔd〉"

%naｍe）ﻫ　ｆ、wrｉｔe（＂〈tｄ　aligｎ=ｃeｎter>

〈fontsｉze=’5px'

　colｏr=bｌue>

%s<

/font>

〈/ｔｄ〉"

%chengjiaｏｌiaｎg）ﻫｆ、ｗrｉte（"

〈tｄ　ａlign＝center〉<

fｏnt　size=＇５pｘ’　colｏr＝gｒeｅn〉%s〈/ｆont＞〈／td>

/tｒ〉"

%jｕnjia）ﻫ　　pｒint（naｍe）

f、ｗritｅ（"

＜/table〉＂）ﻫf、write（＂＜/boｄy>

ﻬ六、总结

教师评语:

成绩:

　　　　　指导教师:

展开阅读全文