大学计算机python课程报告Word文档格式.docx
《大学计算机python课程报告Word文档格式.docx》由会员分享,可在线阅读,更多相关《大学计算机python课程报告Word文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
总分
得分
评阅教师
2019年6月15日
说明
1.本课程要求每个学生就感兴趣的某个领域数据进行获取、分析,并以可视化的方式将分析结果展示出来。
因此,课程报告主要包括任务要求、数据获取、分析、可视化展示等数据处理过程的内容。
2.课程结束后,需要提交课程报告(电子及打印版)、相应数据文件和程序源代码。
未提交相关资料者不能参加成绩评定。
3.课程报告要求参考本报告模板撰写,可根据具体情况适当调整,但文档结构要完整、格式排版美观、条理清晰、论述准确。
4.文档撰写不符合要求,或者抄袭他人作品,记零分。
世界五十强企业数据分析
一、任务描述
使用python编写爬虫程序获取世界五十强企业信息,内容包括五十强企业的排名,往年排名,企业名称,以及所处地区和国家,并将获取数据保存到Excel文件中
使用excel工具对获取的电影信息进行数据清洗,包括按照世界排名,国家进行排序,分类、统计
使用excel的图表工具和python对统计分析结果进行可视化,包括利用柱状图,条形图,饼图,对各国五十强企业的占比进行分析,并且利用词云对五十强企业的从事领域进行分析,获得五十强企业中存在较广泛的行业领域。
二、数据获取
1数据描述
数据来源:
爬取的是前五十强企业数据
数据获取:
世界五十强企业的排名,往年排名,名称,所在国家和地区并将获这些信息(排名,往年名称,所在国家和地区)写入Excel表格。
2使用工具
python是一种功能丰富的语言,它拥有一个强大的基本类库和数量众多的第三方扩展,利用beautifulsoup4、requests、selenium等库可以实现对网页数据的爬取,使用matplotlib、pandas、wordcloud、pyecharts等库可以实现词云,表格,地图等形式的数据分析。
3数据获取步骤
第一步:
从网页上获取HTML内容。
第二步:
分析网页内容并提取有用数据,采用二维列表存储世界五十强企业的数据
第三步:
将获得的数据写入Excel文件。
4程序代码
1)获取数据代码并将获得全部企业信息存储到Excel表格中,代码如下:
5数据保存到Excel文件,Excel文件截图如图1所示:
图1爬取出来的世界五十强企业excel文件截图
三、数据分析(文管类可以是数据存储、检索等等)
1数据分析工具
Excel是一款电子表格软件。
直观的界面、出色的计算功能和图表工具,使Excel成为最流行的个人计算机数据处理软件。
Excel具有强大的数据统计分析处理能力,能进行多种数据统计计算分析功能,广泛应用于管理、统计财经、金融等众多领域。
2使用excel工具进行五十强企业在各个国家的分布情况及进行统计。
方法步骤:
通过excel排序功能,根据每行数据的国家列关键词,对五十强企业进行归类分组,并通过计算得到各个国家的五十强企业占有率。
世界五十强企业按照国家分布排序后的结果如图2:
图2电影热度排名的excel文件截图
四、结果的可视化展示
1数据可视化工具
Excel能绘制的图表多达数十种,基本可以实现一维和二维图表的绘制,比较常用的图表类型包括散点图、条形图、饼图、折线图等等。
Python语言功能强大,在数据可视化方面有着诸多应用,使用matplotlib、pandas、wordcloud、pyecharts等库可以实现词云,表格,地图等形式的可视化。
(1使用excel工具对各个国家的世界五十强企业占比绘制饼状图
选择所需的数据,利用excel自带的绘制饼状图功能进行作图。
各个国家的世界五十强企业分布情况如图3所示。
(2)
图3各国对世界五十强企业占比饼状图
(2)使用excel工具对各个国家的世界五十强企业占比绘制面积图
各个国家的世界五十强企业分布情况如图4所示
图4各国对世界五十强企业占比面积图
(2)使用excel工具对各个国家的世界五十强企业占比绘制条形图
各个国家的世界五十强企业分布情况如图所示
图5各国对世界五十强企业占比条形图
(2)使用excel工具对各个国家的世界五十强企业占比绘制柱状图
各个国家的世界五十强企业分布情况如图6所示
图6各国对世界五十强企业占比柱状图
(2)使用python工具对各个国家的世界五十强企业占比绘制地图可视化
安装相应的pillow、pyecharts库,并利用pipinstall安装相应的世界地图包,然后编写相应的程序,选择所需的数据,移植到python代码中,得到所需的html文件。
代码如下:
各个国家的世界五十强企业分布情况如图7所示
图7各国对世界五十强企业占比柱状图
(2)使用python工具对世界五十强企业在各行业领域的分布情况进行词云可视化
首先对爬去的数据进行进一步清洗,由于python的wordcloud库只能识别中英文,因此利用excel的Ctrl+f可以查找并替换左右括号,由于分析的是企业所处行业情况,因此在绘制词云前,还要剔除掉诸如“公司”“有限”等无用高频词语,将剩余文本内容以uft-8编码以csv格式保存。
随后通过修改和调式网上的词云代码,导入文本,运行后得到词云。
同时为了进一步美化和改善词云,我又对代码进行了修改,改变了词云的形状,颜色等等参数。
世界五十强企业在各行业领域的分布情况如图8所示
图8世界五十强企业在各行业领域的分布情况
改进后的代码如下:
改进后的词云可视化如图9所示
图9改进后的词云可视化
五、遇到的问题与解决方法
1、问题或难点
1.每次在爬取网页内容之前都要寻找表格table的路径,是一件比较繁琐的事情,往往要试好多次才能准确的找到正确的table路径。
解决方法:
更换另一套代码,通过对教科书上爬取最好大学网代码的改进,使python能够自动寻找table所在路径,并将爬取的表格存储在excel中。
2.在制作词云和地图可视化时,有许多库比如pyecharts、wordcloud如果直接用pipinstall下载都会因为版本过低等种种原因无法使用,导致我在寻找其他库的安装方法时耗费了大量时间。
在论坛里找到打包好的个各种库,下载后将其直接移植到D:
\python\Lib\site-packages文件夹中。
3.在制作词云之前,要去掉括号和括号里的内容,我首先考虑利用python对数据进行清洗,但处于某种原因,清洗后所有数据都消失了。
利用excel的ctrl+f关键词查找功能,很快的去除了所有的括号。
6、学习过程中用到的的网站
在实际操作过程中,有许多错误提示和操作方法是书本上没有的,因此需要借助网络上的个各种学习资源来帮助自己完成大作业,特此附上相关链接:
七、学习总结与反思
感想:
次大作业,与其说是完成一项任务,不如说是一次对python的探索过程,平时在计算机课上听python感觉非常晦涩难懂,可是真正的实践过后,才真真切切的体会到python功能之强大,其中的乐趣也是无穷的,非常感谢这次大作业帮我更深刻的认识到了“人生苦短,我用python”这句话的涵义。
我的收获:
经过几十个小时的摸索,我收获的当然不仅仅是乐趣,从一开始连一行代码都看不懂的小白,到现在可以熟悉操作爬取页的各个流程,掌握了十几种库的功能,并且对网络上的代码可以看懂并且加以修改,但我觉得最最重要的收获还是学会了如何看懂错误提示,屡败屡战,每一个代码都是经过很多很多次的修改,最终才能成功运行。
需要改进的地方:
就本次作业而言,有个不足之处就是爬取的数据不是很多,只是截取了前五十个数据进行分析,可视化。
在以后的实际应用中,就需要爬取大量的数据进行分析了
,
评分参考
得分
1、数据处理过程完整(60分)
过程方法描述清楚准确,数据来源明确(20分)
数据分析:
多角度数据分析,描述清楚准确(20分)
可视化展示:
多种图表展示,图表类型选择恰当,图表美观完整(20分)
2、文档结构完整、格式排版美观、描述清楚准确(20分)
教师评语