Python网络爬虫实习报告python实习报告.docx

资源描述

Python网络爬虫实习报告python实习报告.docx

《Python网络爬虫实习报告python实习报告.docx》由会员分享，可在线阅读，更多相关《Python网络爬虫实习报告python实习报告.docx（7页珍藏版）》请在冰豆网上搜索。

Python网络爬虫实习报告python实习报告.docx

Python网络爬虫实习报告python实习报告

Pythｏn网络爬虫实习报告

一、选题背景-2-

二、爬虫原理ﻩ—2-

三、爬虫历史与分类—2　—

四、常用爬虫框架比较ﻩ-　5-

五、数据爬取实战（豆瓣网爬取电影数据）—６-

2爬取数据—7　-

3数据整理、转换ﻩ－1０　-

4数据保存、展示ﻩ-12　－

5技术难点关键点ﻩ—　12—

六、总结-１４　—

一、

选题背景

二、爬虫原理

三、爬虫历史与分类

四、常用爬虫框架比较

Scrapｙ框架：

Scraｐｙ框架就是一套比较成熟得Pythoｎ爬虫框架，就是使用Pｙthon开发得快速、高层次得信息爬取框架,可以高效得爬取ｗeb页面并提取出结构化数据。

Ｓcrapｙ应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等.

Crawleｙ框架:

Ｃrａwley也就是Pythoｎ开发出得爬虫框架，该框架致力于改变人们从互联网中提取数据得方式。

Portia框架：

Ｐoｒtiａ框架就是一款允许没有任何编程基础得用户可视化地爬取网页得爬虫框架。

newspａpｅr框架:

ｎｅwspapｅr框架就是一个用来提取新闻、文章以及内容分析得Pythｏn爬虫框架.

Pｙtｈｏn-goｏse框架：

Pythｏn-goｏse框架可提取得信息包括：

〈1〉文章主体内容;<2>文章主要图片；<3>文章中嵌入得任ｈeYｏutube／Viｍeo视频；<4〉元描述；〈５〉元标签

五、数据爬取实战（豆瓣网爬取电影数据）

１分析网页　

#获取htｍl源代码

def_＿gｅtHtml（）：

　　　ｄata=　[]ﻫｐageNｕm=１

　pageSize=0

try:

ﻫwhｉle（ｐageSizｅ〈=1２５）：

　　　　　　#ｈeadｅrs＝　{’Ｕser—Aｇeｎt'：

’Moziｌlａ/5、0（WindowsＮT6、1）AｐpｌeWeｂKｉt/5３７、１1（KHTMＬ，like　Geckｏ）Cｈrome/23、0、127１、64Sａfari/537、１１’，

　　　#’Ｒefeｒer’:

Ｎonｅ　＃注意如果依然不能抓取得话,这里可以设置抓取网站得ｈost

　　　＃}ﻫ　　　　＃　ｏpener　＝　urlliｂ、ｒeqｕeｓt、build_ｏｐｅｎeｒ（）

　　#opener、addhｅａdｅｒs＝［headeｒs］ﻫ　　　ｕｒl　=＂”+stｒ（pagｅSizｅ）+　”＆ｆiltｅr＝＂+sｔｒ（pａｇeNum）

　＃data［'hｔml%s’％　i]＝urlｌｉb、reｑuest、urｌopｅｎ（urｌ）、ｒead（）、decode（"utｆ—８"）ﻫ　　　　daｔa、append（urlｌiｂ、ｒequｅst、urlopeｎ（urｌ）、ｒead（）、ｄecode（”ｕｔf－8＂））

　　　　pageＳiｚe+＝　２5ﻫ　　　pａｇｅNｕm+=1ﻫprｉnt（ｐａgeSize,pageＮum）

excepｔEｘceptiｏnaｓe:

　rａｉsee

　returｎdata

2爬取数据

def　_＿getData（html）:

　　title=　［］#　电影标题ﻫ　　#ratiｎｇ_ｎum＝[］＃评分ﻫrａnge＿num=　［］#排名ﻫ　＃raｔing＿peopｌｅ_num　=[］　#评价人数

　ｍovie_aｕthor　=[]#导演ﻫdaｔa={}

　#ｂs4解析hｔmlﻫｓoup＝BeautiｆuｌSｏｕp（htmｌ，”html、parser”）ﻫforli　ｉnsｏｕp、find（”ｏl”,ａtｔrｓ=｛'clasｓ’：

'ｇrid_view'}）、finｄ＿alｌ（"li"）:

ｔitｌe、appenｄ（li、fｉnd（"sｐan",cｌaｓs＿=”titｌｅ"）、ｔext）

　＃rａting_ｎuｍ、append（li、finｄ（"dｉv”，　class_='stａｒ'）、find（”spaｎ"，　class_＝'rating_nuｍ＇）、ｔext）

　　raｎge＿num、aｐpenｄ（li、fiｎd（"diｖ”，class＿＝’piｃ'）、finｄ（"em＂）、text）ﻫ　　#spanｓ=lｉ、find（"ｄiv”，cｌasｓ＿=’star’）、find_ａlｌ（＂ｓｐan"）ﻫ　　#fｏrx　in　rａnge（len（sｐaｎs））：

　　　＃ｉfｘ<=2:

ﻫ　　　#　pａｓsﻫ　　#eｌse：

　　　　＃　　rａtｉnｇ_pｅｏple_num、append（sｐans［x]、stｒiｎｇ［—ｌｅn（ｓpans[x］、sｔrinｇ）:

—3]）

　　ｓtr=lｉ、ｆｉnｄ（”div",claｓs_=’bｄ’）、find（”p",　clasｓ＿=’'）、teｘt、lstrip（）ﻫ　　　　inｄeｘ=sｔr、fｉｎd（"主＂）ﻫif（indｅx　=＝－１）：

　　　index=str、finｄ（＂、、、＂）ﻫ　　　　　　prinｔ（li、ｆｉｎd（”dｉv”,cｌａｓs_='ｐiｃ’）、find（”em"）、tｅxt）

　　if　（li、find（"div”,clａsｓ_=’pic’）、fｉnd（”ｅm”）、tｅxｔ　==２10）:

　　　　　　iｎdｅｘ＝　60

　#ｐrint（"aaa”）ﻫ　　#　ｐrint（stｒ[4：

iｎdeｘ]）ﻫ　　ｍovｉｅ_authoｒ、append（str[4:

ｉndeｘ]）

dａtａ['tｉtlｅ'］　=titlｅ

　#daｔa['raｔing_num'］　=raｔiｎg_nuｍ

　datａ［＇rangｅ＿nｕm’]=　ｒａnge_numﻫ　#data[’ratiｎg＿ｐeｏplｅ＿nｕｍ’]=ｒatｉng＿peoplｅ_nuｍ

ｄａｔa［’moｖie_auｔhｏr’]＝movie_aｕthｏr

retｕrndatａ

3数据整理、转换

def＿_getMovｉeｓ（daｔa）:

　f=opｅn（'F:

//ｄouban_movｉe、html'，　’ｗ’,ｅncｏding＝’utf—8’）

　f、ｗrite（"〈html>”）

　ｆ、wrｉte（”〈title〉Inserttitlehere＜/ｈｅad〉"）ﻫ　f、wrｉte（”〈bｏdｙ>”）ﻫ　ｆ、write（”〈ｈ1>爬取豆瓣电影<／ｈ１>"）

　　　f、wriｔｅ（”

作者：
刘文斌〈/h４〉"）
　　f、wrｉte（”〈h4>　时间:
＂+nｏwtｉme+”＜/h４＞”）ﻫf、wｒiｔe（"
”）
f、ｗrｉte（"<ｔable　width='８00px’　border='1’　aｌign=center>"）
f、wrｉte（"〈thｅaｄ＞”）ﻫ　　　f、wｒite（"
　f、wriｔe（"〈th　ｗiｄth='5０px’>〈fｏnｔsize=’５＇ｃolｏr=green〉排名〈／foｎｔ〉〈/th>”）ﻫ　　#f、ｗｒite（＂〈tｈwidth=’１00px’〉〈fontsize＝'5'ｃolor=green〉评价人数〈fontsizｅ＝'5＇color=grｅen>导演〈／font〉＜/th＞”）
　　f、wrｉｔe（”"）
　f、ｗrｉte（"<／thｅad〉”）
f、ｗｒite（"〈tbodｙ>”）
　　　fordataindataｓ:
ﻫforｉiｎ　raｎge（０,　25）:
ﻫ　　　f、write（＂〈tｒ〉”）
　　　f、write（＂
oraｎge;ｔext—align:
cenｔer’〉%s＜/td〉”%ｄata［'tiｔle'][i]）ﻫ　　　#　ｆ、wｒite（”〈tdsｔｙle＝’cｏｌｏr:
blｕe；teｘｔ－aｌign：
cｅnteｒ＇〉%ｓ＜/ｔd>"　%data［＇rａｔiｎg_num']［ｉ]）ﻫ　　　ｆ、writｅ（"
ｒed；text—ａlｉgn：
ｃｅnｔer'〉％s<／td〉”%　data［’ｒange_num’］[i]）
　#f、wｒiｔｅ（"＜ｔdstyle=’coｌor:
blｕe;texｔ-aligｎ：
cenｔeｒ’〉%s〈/td＞”%　dａta[’ｒating_pｅople＿ｎｕm']［i］）
　　　　　f、write（”〈tdstｙle=’colｏr:
ｂlａｃk；ｔext—ａlｉgn:
center’〉％s<／td>"%ｄata[’mｏviｅ＿autｈor’］[ｉ]）
　f、write（"〈/tr>"）ﻫ　f、wriｔe（”〈／tbodｙ〉"）
f、write（"＜/ｔhｅad〉"）ﻫf、wriｔe（”
f、wｒｉtｅ（”＜／boｄy〉"）ﻫ　ｆ、write（＂〈/ｈtｍｌ〉”）ﻫf、close（）
ｉf　ｎaｍe　＝=　’_＿mａiｎ＿_’:
dataｓ=［］
hｔmls=getHｔml（）ﻫ　　ｆori　ｉnrangｅ（lｅn（htmls））:
ﻫdatａ　=getData（htｍls[ｉ]）ﻫ　　　datas、apｐend（data）
　　ﻫ＿_gｅtMovies（datas）
４数据保存、展示
结果如后图所示:
5技术难点关键点
数据爬取实战（搜房网爬取房屋数据）
ｆｒoｍbs４　iｍpoｒt　BｅautifｕlＳoupﻫimpoｒtrequestsﻫｒｅp　＝requeｓｔs、get（’'）
rep、eｎｃodｉng="ｇb2312"　　　＃设置编码方式
html　=　rｅｐ、ｔexｔﻫｓoup=BｅａutifulSｏup（html,'hｔｍｌ、parser’）
f=oｐeｎ（'F:
//fａng、html’,　’w＇,encoding=’uｔｆ—8’）
f、writｅ（”
f、wriｔe（"<ｈｅaｄ〉〈ｍetachａrseｔ=’UTF—８'＞Insｅrｔｔitｌehere”）
f、ｗriｔe（"〈cｅｎter>＜h1〉新房成交ＴOP３”）ﻫf、ｗrｉte（＂〈tａbｌｅ　ｂorder＝'1px’width=’1００0ｐx’ｈeigｈｔ='800pｘ’ａｌiｇn=cｅnteｒ〉＜tr〉＂）ﻫｆ、wｒｉte（"<ｈ2〉房址〈/tｈ>"）ﻫf、wrｉte（"〈th〉〈ｈ2〉成交量〈/h2〉〈/th〉"）
f、wｒitｅ（”<ｔh>〈ｈ２＞均价

＜/ｔh〉〈/ｔr＞”）ﻫforｌi　insｏｕp、find（”ul",claｓs_=”ul02"）、find＿aｌl（＂lｉ”）:

　nａmｅ=li、ｆind（”div”,ｃlａss_="ｐbtext”）、find（”ｐ”）、teｘt

　　　ｃhｅnｇjiａoliang=li、fｉnd（"ｓｐaｎ”,ｃlaｓｓ＿="rｅd—f3”）、ｔｅxｔ

　　ｔｒy:

ﻫｊuｎjia=li、ｆind（”ｄｉv"，cｌａｓs_="ｏhteｒ"）、find（"p",clａｓs＿＝"ｇray—9”）#、text、ｒeplace（’。

Ｏ’，’平方米'）ﻫ　exceｐtException　aｓ　ｅ:

ﻫ　　junｊia＝ｌｉ、fｉｎd（"diｖ",class_="gray—9"）#、texｔ、replaｃｅ（'�Ｏ＇，　’平方米＇）ﻫ

ｆ、writｅ（"〈fontsｉze=’5px'　colｏr=bｌue>%s〈/ｔｄ〉"%chengjiaｏｌiaｎg）ﻫｆ、ｗrｉte（"〈tｄ　ａlign＝center〉

f、ｗritｅ（"＜/table〉＂）ﻫf、write（＂＜/boｄy>”）

ﻬ六、总结

教师评语:

成绩:

　　　　　指导教师:

展开阅读全文