摆脱剧荒教你用Python爬取豆瓣电影最新榜单.docx
《摆脱剧荒教你用Python爬取豆瓣电影最新榜单.docx》由会员分享,可在线阅读,更多相关《摆脱剧荒教你用Python爬取豆瓣电影最新榜单.docx(14页珍藏版)》请在冰豆网上搜索。
摆脱剧荒教你用Python爬取豆瓣电影最新榜单
作者|吹牛Z
来源|数据不吹牛
【导读】本文以豆瓣电影(非TOP250)为例,从数据爬取、清洗与分析三个维度入手,详解和还原数据爬取到分析的全链路。
阅读全文大概需要5分钟,想直接看结果或下载源码+数据集的旁友可以空降到文末。
旁友,暑假,已经过了一大半了。
这个遥远而炙热的名词,虽然和小Z这个上班狗已经没有任何关系,但在房间穿着裤衩,吹着空调,吃着西瓜,看着电影,依然是假期最好的打开方式。
现在裤衩、空调、西瓜都唾手可得,压力全在电影这边了。
关于电影推荐和排行,豆瓣是个好地方,只是电影TOP250排名实在是太经典,经典到有点老套了。
小Z想来点新花样,于是按默认的“评分最高”来排序,Emmm,结果好像比较小众:
又按年代进行筛选,发现返回的结果和预期差的更远了。
怎么办捏?
不如我们自己对豆瓣电影进行更全面的爬取和分析,再DIY评分规则,结合电影上映年代做一个各年代TOP100电影排行榜。
数据爬取
1、网址规律探究
听说看的人越多,评分越有说服力,所以我们进入导航页,选择“标记最多”。
(虽然标记的多并不完全等于看的多,但也差不多了)
要找到网址变化规律,常规的套路就是先右键“审查元素”,然后通过不断的点击“加载更多”刷新页面的方式来找规律。
网址规律异常的简单,开头URL不变,每翻一页,start的数值增加20就OK了。
一页是20部电影,开头我们立下的FLAG是要爬取9000部电影,也就是爬取450页。
2、单页解析+循环爬取
豆瓣灰常贴心,每一页都是JSON格式存储的规整数据,爬取和清洗都省了不少事儿:
这里我们只需要伪装一下headers里面的user-agent就可以愉快的爬取了:
headers={'User-Agent':
'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTMLlikeGecko)Chrome/63.0.3239.132Safari/537.36'}
直接上单页解析的代码:
defparse_baxxxxse_info(urlheaders):
html=requests.get(urlheaders=headers)bs=json.loads(html.text)df=pd.Datafrxxxxame()foriinbs['data']:
casts=i['casts']#主演cover=i['cover']#海报directors=i['directors']#导演m_id=i['id']#IDrate=i['rate']#评分star=i['star']#标记人数title=i['title']#片名url=i['url']#网址cache=pd.Datafrxxxxame({'主演':
[casts]'海报':
[cover]'导演':
[directors]'ID':
[m_id]'评分':
[rate]'标记':
[star]'片名':
[title]'网址':
[url]})df=pd.concat([dfcache])returndf
然后我们写一个循环,构造所需的450个基础网址:
#你想爬取多少页,其实这里对应着加载多少次defformat_url(num):
urls=[]baxxxxse_url='{}'foriinrange(020*num20):
url=baxxxxse_url.format(i)urls.append(url)returnurlsurls=format_url(450)
两个凑一起,跑起来:
result=pd.Datafrxxxxame()#看爬取了多少页count=1forurlinurls:
df=parse_baxxxxse_info(urlheaders=headers)result=pd.concat([resultdf])time.sleep(random.random()+2)print('Ihadcrawledpageof:
%d'%count)count+=1
一个大号的功夫,包含电影ID、电影名称、主演、导演、评分、标记人数和具体网址的数据已经爬好了:
下面,我们还想要批量访问每一部电影,拿到有关电影各星级评分占比等更丰富的信息,后续我们想结合评分分布来进行排序。
3、单部电影详情爬取
我们打开单部电影的网址,取巧做法是直接右键,查看源代码,看看我们想要的字段在不在源代码中,毕竟,爬静态的源代码是最省力的。
电影名称?
在的!
导演信息?
在的!
豆瓣评分?
还是在的!
一通CTRL+F搜索发现,我们所有需要的字段,全部在源代码中。
那爬取起来就太简单了,这里我们用xpath来解析:
defparse_movie_info(urlheaders=headersip=''):
ifip=='':
html=requests.get(urlheaders=headers)else:
html=requests.get(urlheaders=headersproxies=ip)bs=etree.HTML(html.text)#片名title=bs.xpath('//div[@id="wrapper"]/div/h1/span')[0].text#上映时间year=bs.xpath('//div[@id="wrapper"]/div/h1/span')[1].text#电影类型m_type=[]fortinbs.xpath('//span[@property="v:
genre"]'):
m_type.append(t.text)a=bs.xpath('//div[@id="info"]')[0].xpath('string()')#片长m_time=a[a.find('片长:
')+4:
a.find('分钟\n')]#时长#地区area=a[a.find('制片国家/地区:
')+9:
a.find('\n语言')]#地区#评分人数try:
people=bs.xpath('//a[@class="rating_people"]/span')[0].text#评分分布rating={}rate_count=bs.xpath('//div[@class="ratings-on-weight"]/div')forrateinrate_count:
rating[rate.xpath('span/@title')[0]]=rate.xpath('span[@class="rating_per"]')[0].textexcept:
people='None'rating={}#简介try:
brief=bs.xpath('//span[@property="v:
summary"]')[0].text.strip('\n\u3000\u3000')except:
brief='None'try:
hot_comment=bs.xpath('//div[@id="hot-comments"]/div/div/p/span')[0].textexcept:
hot_comment='None'cache=pd.Datafrxxxxame({'片名':
[title]'上映时间':
[year]'电影类型':
[m_type]'片长':
[m_time]'地区':
[area]'评分人数':
[people]'评分分布':
[rating]'简介':
[brief]'热评':
[hot_comment]'网址':
[url]})returncache
第二步我们已经拿到了9000部电影所有的网址,只需写个循环,批量访问就可以了。
然鹅,尽管设置了访问时间间隔,爬取上千个页面我们就会发现,豆娘还是会把我们给BAN(禁)掉。
回忆一下,我们没有登录,不需要cookies验证,只是因为频繁的访问骚扰到了豆娘。
那这个问题还是比较好解决的,此处不留爷,换个IP就留爷。
细心的朋友已经发现了,上面针对单部电影的页面解析,有一个默认IP参数,我们只需要在旧IP被禁后,传入新的IP就可以了。
PS:
代理IP如果展开讲篇幅太长,网上有许多免费的IP代理(缺点是可用时间短,不稳定)和付费的IP代理(缺点是不免费)。
另外,要强调一下这里我们传入的IP长这样:
{'https':
''}
movie_result=pd.Datafrxxxxame()ip=''#这里构建自己的IP池count2=1cw=1forurlnameinzip(result['网址'].values[6000:
]result['片名'].values[6000:
]):
#fornameurlinwrongs.items():
try:
cache=parse_movie_info(urlheaders=headersip=ip)movie_result=pd.concat([movie_resultcache])#time.sleep(random.random())print('我们爬取了第:
%d部电影-------%s'%(count2name))count2+=1except:
print('滴滴滴滴滴,第{}次报错'.format(cw))print('ipis:
{}'.format(ip))cw+=1time.sleep
(2)continue
电影页面数据爬取结果如下:
数据清洗
1、基本信息表和电影内容表合并
baxxxxse_info表里面是我们批量抓取的电影基本信息,movie_info则是我们进入每一部电影,获取到的感兴趣字段汇总,后面的分析是需要依赖两张表进行的,所以我们合并之:
2、电影年份数据清洗
我们发现之前爬取的上映时间数据不够规整,前面都带了一个“-”:
要把前面多余的符号去掉,但发现无论怎么用str.replace返回的都是Nan,原来这里pandas把所有数字默认成负的,所以只需要把这一列所有数字乘-1即可:
3、评分分布规整
最终我们是希望能够把电影整体评分(如某电影8.9分)和不同评分等级(5星的占比70%)结合起来分析的。
而刚才爬取评分数据的时候,为了偷懒,用的是一个字典把各评分等级和对应的占比给包起来了,然鹅,pandas默认把他当成了字符串,不能直接当做字典处理:
灵光一闪?
这种字典形式的字符串,用JSON解析一下不就变字典了?
HAVEATRY:
结果,疯狂报错:
报错貌似在提示我们是最外围的引号错误导致了问题,目前我们用的是双引号("{'a':
1}")难道只能用单引号('{'a':
1}')?
先试试吧:
报错解决了。
接下来,我们把字典形式的评分拆成多列,例如每个星级对应一列,且百分比的格式变成数值型的,写个循环函数,用apply应用一下即可:
#把单列字典的评分分布转化成分开的5列,且每一列是数值型的defget_rate(xtypes):
try:
returnfloat(x[types].strip('%'))except:
passmovie_combine['5星']=movie_combine['format_评分'].apply(get_ratetypes='力荐')movie_combine['4星']=movie_combine['format_评分'].apply(get_ratetypes='推荐')movie_combine['3星']=movie_combine['format_评分'].apply(get_ratetypes='还行')movie_combine['2星']=movie_combine['format_评分'].apply(get_ratetypes='较差')movie_combine['1星']=movie_combine['format_评分'].apply(get_ratetypes='很差')
现在我们的数据长这样的:
OK,清洗到此告一段落。
数据分析
大家还记得开头的FLAG吗?
我们要制作各年代TOP100电影排行榜。
所以直接按照年代划分电影,然后按照电影评分排个序不就完事了!
然鹅这听起来有点话糙理也糙。
如果只按照电影的总的评分来排序,会忽视掉内部评分细节的差异性,举个例子,搏击俱乐部:
总评分9.0分,打出5星好评的占比60.9%,4星的有30.5%。
同为9分佳作,给美丽心灵打出5星好评的有56.0%,和搏击俱乐部相比少了4.9%,而4星的人数则高出了6%。
可以不负责任的做一个概括:
两部都是9分经典,但观众给搏击俱乐部的5星倾向要高于美丽心灵。
GET到这个点,我们就可以对电影评分排序制定一个简单的规则:
先按照总评分排序,然后再对比5星人数占比,如果一样就对比4星,以此类推。
这个评分排序逻辑用PYTHON做起来不要太简单,一行代码就搞定:
#按照总评分,5星评分人数占比,4星占比,3星..依次类推movie_combine.sort_values(['评分''5星''4星''3星''2星''1星']ascending=Falseinplace=True)
但是仔细看排序结果,我们会发现这样排序的一些小瑕疵,一些高分电影其实是比较小众的,比如“剧院魅影:
25周年纪念演出”和“悲惨世界:
25周年纪念演唱会”等。
而我们想要找的,是人民群众所喜闻乐见的电影排名,这里只有通过评分人数来代表人民的数量,我们先看一看所有电影的评分人数分布:
评分人数跨度极大,为了减少极值对于平均的影响,就让中位数来衡量人民群众是否喜闻乐见,所以我们只留下大于中位数的评分。
接着,看看历年电影数量分布情况:
直到2000年初,筛选后的电影年上映数才逼近200,更早时期的电影好像20年加起来还不到100部。
为了让结果更加直观,我们来按年代统计电影的上映时间。
这里涉及到给每部电影上映时间进行归类,有点棘手啊...
绞尽脑细胞,终于找到了一个比较讨巧的办法,先构造年代标签,再借用cut函数按十年的间隔切分上映时间,最后把标签传入参数。
得勒!
数据直观的反映出各年代上映量,20世纪80年代前真的是少得可怜。
看到这里,不由想到我们最开始立的那个“制作年代TOP100榜单”的FLAG,因为早期电影量的贫乏,是完全站不住脚的了。
不慌,一个优秀的数据分析师,一定是本着具体问题具体分析的精神来调整FLAG的:
基于年代上映量数据,我们从20世纪30年代开始制作排名;为了避免有些年代电影过少,优化成各年代TOP10%的电影推荐;同时,为了避免近年电影过多,每个年代推荐的上限数不超过100部。
看到这三个条件,连一向自傲的潘大师(pandas)都不禁长叹了口气。
然鹅大师之所以是大师,就是因为在他眼里没有什么是不可能的。
思考1分钟后,确定了灵活筛选的套路:
final_rank=pd.Datafrxxxxame()forcenturycountinzip(century_f.indexcentury_f.values):
f1=movie_f2.loc[movie_f['年代']==century:
]#1000部以下的,取TOP10%ifcount<1000:
return_num=int(count*0.1)#1000部以上的,取前100部else:
return_num=100f2=f1.iloc[:
return_num:
]final_rank=pd.concat([final_rankf2])
根据上一步构造的century_f变量,结合每个年代上映电影量,不足1000部的筛选前10%,超过1000部的只筛选前100部,结果,就呼之而出了。
在附上代码和榜单之前,我预感到大部分旁友是和我一样懒的(不会仔细看榜单),所以先整理出各年代TOP5电影(有些年代不足TOP5),做一个精华版的历史电影排行榜奉上:
从峰回路转、结尾让人大呼牛逼的《控方证人》,到为无罪真理而辩的《十二怒汉》,再到家庭为重不怒自威的《教父》系列、重新诠释希望和坚韧的《肖申克的救赎》以及将励志提升到新高度的《阿甘正传》(小Z阅片尚浅,榜单上只看过这些)。
每一部好的电影,都是一块从高空坠落的石头,它总能在人们的心湖上激起水花和涟漪,引起人们对生活、社会以及人性的思考。
而烂片,就是从高空坠落的空矿泉水瓶,它坠势汹汹,但最终只会浮在水面,让看过的人心存芥蒂,感觉灵魂受到污染。
有了新的电影排名榜单,再也不用担心剧荒了。