1、数据预处理实验1重庆交通大学信息科学与工程学院实验报告班 级: 曙光 1701 班姓名 学号:实验项目名称:数据导入与预处理实验一实验项目性质: 验证性、设计性实验所属课程: 数据导入与预处理实验室 ( 中心 ) : 语音楼八楼指导教师:实验完成时间: 2019 年 11 月 1 日一实验目的1. 了解和掌握数据库的恢复, 数据库数据的变换, 数据的统计以及可视化;掌握 Json 数据集的 API 下载方法,数据提取,以及导入其他数据结构的方法。2. 了解和掌握不同数据格式之间的转换方法; 掌握用计算机编程语言实现数据的格式转换以及数据信息的提取。二实验要求1. 安装 Mysql 数据库,以及
2、 mysql workbench 客户端,2. 下载对公众开放的安然 (Enron) 公司的电子邮件数据集。下载地址:3. 在 mysql 中恢复 Enron 数据库。4. 数据统计每一天和每一周发邮件的数量,并用可视化软件实现可视化。5. 采用 iTunes API 做个小实验,利用关键词来生成 JSON数据结果集。iTunes 是由 Apple 公司提供的一个音乐服务,任何人都可以利用iTunes 服务来查找歌曲、 艺术家和专辑。 在查找的时候需要把搜索关键词添加到 iTunes API URL的后面。 URL中, =后面的是搜索关键词,是一个乐队的名字, the Growlers 。 注
3、意: URL中用 +代替空格字符,URL不允许包含空格字符。iTunes API 会根据提供的关键词从音乐库中返回 50 个结果。整个结果集形成一个 JSON文件,每一条音乐信息中的元素,以名字 - 值 的格式存放在 JSON文件中。The GrowlersApple iTunes 的开发文档:6. 使用一种熟悉的语言,编写程序,将下载下来的 the Growlers 的所有音乐的歌名提取出来,并可视化显示。三、需求分析1. 提取出安然公司数据集中的每天的阅读量和每周的阅读量,并画出趋势图2. 提取出 iTunes 中的 trackname 数据四、实验过程1. 安装好 Mysql 和 Mys
4、ql Workbench2. 建立一个新的数据库:3. 打开 cmd,进入 MySQL:查看数据库:4. 下载好安然公司的数据集5. 选用 enron 数据库,在 Mysql 中导入安然公司的数据集到数据库6. 在 Mysql Workbench 中查看已经创建好的数据库7. 用 SQL语言查找每天的订阅量( 1999 年到 2017 年)8. 并导入 excel 画图excel 文件如下:再用 Tableau Public 2019.2 ,绘制图形,如下图所示:9. 用 sql 语言查找每周的订阅量10. 并导入 excel 画图11. 下载 iTunes 数据集,下载结果为文本文件12.
5、以文本文件格式打开,如下图:将后缀名改为 .Json:13. 用 python 将 json 格式文件中的 Trackname提取出来14. 打开 jupyter ,编写代码15. 结果如下五、总结通过此次实验,了解和掌握数据库的恢复、数据库数据的变换、数据的统计以及可视化;掌握 Json 数据集的 API 下载方法,数据提取,以及导入其他数据结构的方法;还有就是了解和掌握不同数据格式之间的转换方法;掌握用计算机编程语言实现数据的格式转换以及数据信息的提取。了解了 mysql 的安装以及一些基本的 sql 操作。例如数据库的创建、基本的查询功能,数据库 sql 文件的导入等。同时对于可视化软件 Tableau 也更加熟悉了,能够根据查询结果绘制散点图,折现图,更好的将数据规律展现出来。这在很大程度上提升了自己的独立解决问题能力。此次实验使我获益良多。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1