大学计算机python课程报告Word文档格式.docx

上传人:b****2 文档编号:15232644 上传时间:2022-10-28 格式:DOCX 页数:13 大小:1.35MB
下载 相关 举报
大学计算机python课程报告Word文档格式.docx_第1页
第1页 / 共13页
大学计算机python课程报告Word文档格式.docx_第2页
第2页 / 共13页
大学计算机python课程报告Word文档格式.docx_第3页
第3页 / 共13页
大学计算机python课程报告Word文档格式.docx_第4页
第4页 / 共13页
大学计算机python课程报告Word文档格式.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

大学计算机python课程报告Word文档格式.docx

《大学计算机python课程报告Word文档格式.docx》由会员分享,可在线阅读,更多相关《大学计算机python课程报告Word文档格式.docx(13页珍藏版)》请在冰豆网上搜索。

大学计算机python课程报告Word文档格式.docx

总分

得分

评阅教师

2019年6月15日

说明

1.本课程要求每个学生就感兴趣的某个领域数据进行获取、分析,并以可视化的方式将分析结果展示出来。

因此,课程报告主要包括任务要求、数据获取、分析、可视化展示等数据处理过程的内容。

2.课程结束后,需要提交课程报告(电子及打印版)、相应数据文件和程序源代码。

未提交相关资料者不能参加成绩评定。

3.课程报告要求参考本报告模板撰写,可根据具体情况适当调整,但文档结构要完整、格式排版美观、条理清晰、论述准确。

4.文档撰写不符合要求,或者抄袭他人作品,记零分。

世界五十强企业数据分析

一、任务描述

使用python编写爬虫程序获取世界五十强企业信息,内容包括五十强企业的排名,往年排名,企业名称,以及所处地区和国家,并将获取数据保存到Excel文件中

使用excel工具对获取的电影信息进行数据清洗,包括按照世界排名,国家进行排序,分类、统计

使用excel的图表工具和python对统计分析结果进行可视化,包括利用柱状图,条形图,饼图,对各国五十强企业的占比进行分析,并且利用词云对五十强企业的从事领域进行分析,获得五十强企业中存在较广泛的行业领域。

二、数据获取

1数据描述

数据来源:

爬取的是前五十强企业数据

数据获取:

世界五十强企业的排名,往年排名,名称,所在国家和地区并将获这些信息(排名,往年名称,所在国家和地区)写入Excel表格。

2使用工具

python是一种功能丰富的语言,它拥有一个强大的基本类库和数量众多的第三方扩展,利用beautifulsoup4、requests、selenium等库可以实现对网页数据的爬取,使用matplotlib、pandas、wordcloud、pyecharts等库可以实现词云,表格,地图等形式的数据分析。

3数据获取步骤

第一步:

从网页上获取HTML内容。

第二步:

分析网页内容并提取有用数据,采用二维列表存储世界五十强企业的数据

第三步:

将获得的数据写入Excel文件。

4程序代码

1)获取数据代码并将获得全部企业信息存储到Excel表格中,代码如下:

5数据保存到Excel文件,Excel文件截图如图1所示:

图1爬取出来的世界五十强企业excel文件截图

三、数据分析(文管类可以是数据存储、检索等等)

1数据分析工具

Excel是一款电子表格软件。

直观的界面、出色的计算功能和图表工具,使Excel成为最流行的个人计算机数据处理软件。

Excel具有强大的数据统计分析处理能力,能进行多种数据统计计算分析功能,广泛应用于管理、统计财经、金融等众多领域。

2使用excel工具进行五十强企业在各个国家的分布情况及进行统计。

方法步骤:

通过excel排序功能,根据每行数据的国家列关键词,对五十强企业进行归类分组,并通过计算得到各个国家的五十强企业占有率。

世界五十强企业按照国家分布排序后的结果如图2:

图2电影热度排名的excel文件截图

四、结果的可视化展示

1数据可视化工具

Excel能绘制的图表多达数十种,基本可以实现一维和二维图表的绘制,比较常用的图表类型包括散点图、条形图、饼图、折线图等等。

Python语言功能强大,在数据可视化方面有着诸多应用,使用matplotlib、pandas、wordcloud、pyecharts等库可以实现词云,表格,地图等形式的可视化。

(1使用excel工具对各个国家的世界五十强企业占比绘制饼状图

选择所需的数据,利用excel自带的绘制饼状图功能进行作图。

各个国家的世界五十强企业分布情况如图3所示。

(2)

图3各国对世界五十强企业占比饼状图

(2)使用excel工具对各个国家的世界五十强企业占比绘制面积图

各个国家的世界五十强企业分布情况如图4所示

图4各国对世界五十强企业占比面积图

(2)使用excel工具对各个国家的世界五十强企业占比绘制条形图

各个国家的世界五十强企业分布情况如图所示

图5各国对世界五十强企业占比条形图

(2)使用excel工具对各个国家的世界五十强企业占比绘制柱状图

各个国家的世界五十强企业分布情况如图6所示

图6各国对世界五十强企业占比柱状图

(2)使用python工具对各个国家的世界五十强企业占比绘制地图可视化

安装相应的pillow、pyecharts库,并利用pipinstall安装相应的世界地图包,然后编写相应的程序,选择所需的数据,移植到python代码中,得到所需的html文件。

代码如下:

各个国家的世界五十强企业分布情况如图7所示

图7各国对世界五十强企业占比柱状图

(2)使用python工具对世界五十强企业在各行业领域的分布情况进行词云可视化

首先对爬去的数据进行进一步清洗,由于python的wordcloud库只能识别中英文,因此利用excel的Ctrl+f可以查找并替换左右括号,由于分析的是企业所处行业情况,因此在绘制词云前,还要剔除掉诸如“公司”“有限”等无用高频词语,将剩余文本内容以uft-8编码以csv格式保存。

随后通过修改和调式网上的词云代码,导入文本,运行后得到词云。

同时为了进一步美化和改善词云,我又对代码进行了修改,改变了词云的形状,颜色等等参数。

世界五十强企业在各行业领域的分布情况如图8所示

图8世界五十强企业在各行业领域的分布情况

改进后的代码如下:

改进后的词云可视化如图9所示

图9改进后的词云可视化

五、遇到的问题与解决方法

1、问题或难点

1.每次在爬取网页内容之前都要寻找表格table的路径,是一件比较繁琐的事情,往往要试好多次才能准确的找到正确的table路径。

解决方法:

更换另一套代码,通过对教科书上爬取最好大学网代码的改进,使python能够自动寻找table所在路径,并将爬取的表格存储在excel中。

2.在制作词云和地图可视化时,有许多库比如pyecharts、wordcloud如果直接用pipinstall下载都会因为版本过低等种种原因无法使用,导致我在寻找其他库的安装方法时耗费了大量时间。

在论坛里找到打包好的个各种库,下载后将其直接移植到D:

\python\Lib\site-packages文件夹中。

3.在制作词云之前,要去掉括号和括号里的内容,我首先考虑利用python对数据进行清洗,但处于某种原因,清洗后所有数据都消失了。

利用excel的ctrl+f关键词查找功能,很快的去除了所有的括号。

6、学习过程中用到的的网站

在实际操作过程中,有许多错误提示和操作方法是书本上没有的,因此需要借助网络上的个各种学习资源来帮助自己完成大作业,特此附上相关链接:

七、学习总结与反思

感想:

次大作业,与其说是完成一项任务,不如说是一次对python的探索过程,平时在计算机课上听python感觉非常晦涩难懂,可是真正的实践过后,才真真切切的体会到python功能之强大,其中的乐趣也是无穷的,非常感谢这次大作业帮我更深刻的认识到了“人生苦短,我用python”这句话的涵义。

我的收获:

经过几十个小时的摸索,我收获的当然不仅仅是乐趣,从一开始连一行代码都看不懂的小白,到现在可以熟悉操作爬取页的各个流程,掌握了十几种库的功能,并且对网络上的代码可以看懂并且加以修改,但我觉得最最重要的收获还是学会了如何看懂错误提示,屡败屡战,每一个代码都是经过很多很多次的修改,最终才能成功运行。

需要改进的地方:

就本次作业而言,有个不足之处就是爬取的数据不是很多,只是截取了前五十个数据进行分析,可视化。

在以后的实际应用中,就需要爬取大量的数据进行分析了

评分参考

得分

1、数据处理过程完整(60分)

过程方法描述清楚准确,数据来源明确(20分)

数据分析:

多角度数据分析,描述清楚准确(20分)

可视化展示:

多种图表展示,图表类型选择恰当,图表美观完整(20分)

2、文档结构完整、格式排版美观、描述清楚准确(20分)

教师评语

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 互联网

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1