数据挖掘课程设计Word格式文档下载.docx-资源下载

数据挖掘课程设计Word格式文档下载.docx

1、通过课程的学习，使学生掌握科学的学习方法和形成良好的学习习惯，形成辩证唯物主义的世界观和方法论。计算机组成原理是计算机科学与技术专业的一门核心专业基础课。通过本课程的学习，使学生掌握计算机系统的基本组成、计算机中数据的表示方法、计算机各硬件部件的功能和工作原理等，为学生学习计算机专业课打下坚实的基础。3.项目工具系统：winlO软件：office2010, anaconda1. Microsoft Office WordMicrosoft Office Word是微软公司的一个文字处理器应用程序。 Word给用户提供了用于创建专业而优雅的文档工具，帮助用户节省时间, 并得到优雅美观的结

2、果。一直以來，Microsoft Office Word都是最流行的文字处理程序。作为Office套件的核心程序，Word提供了许多易于使用的文档创建工具，同时也提供了丰富的功能集供创建复杂的文档使用。哪怕只使用Word应用一点文本格式化操作或图片处理，也可以使简单的文档变得比只使用纯文本更具吸引力。2 Microsoft Office ExcelMicrosoft Excel 是 Microsoft 为使用 Windows 和 Apple Macintosh 操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具，再加上成功的市场营销，使Excel成为最流行的个

3、人计算机数据处理软件。在1993年，作为Microsoft Office的组件发布了 5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。3. Anaconda:Anaconda指的是一个开源的Python发行版本，其包含了 conda Python等180多个科学包及其依赖项。可以用于在同一个机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换。Anaconda包括Conda、Python以及一大堆安装好的工具包，比如：numpy、pandas 等。4.数据文件预处理在数据挖掘中，海量的原始数据中存在着大量不完整、不一致、有异常的数据，严重影响到数据挖掘

4、建模的执行效率，英至可能导致挖掘结果的偏差，所以进行数据清洗就显得尤为重要，数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理，该过程就是数据预处理。数据预处理一方面是要提高数据的质量，另一方面是要让数据更好地适应特定的挖掘技术或工具。1数据预处理方法：（1）数据清理数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性來“清理”数据。主要是达到如下目标：格式标准化，异常数据清除，错误纠正，重复数据的清除。（2）数据集成数据集成例程将多个数据源中的数据结合起來并统一存储，建立数据仓库的过程实际上就是数据集成。通过平滑聚集，数据概化，规范化等方

5、式将数据转换成适用于数据挖掘的形式。数据归约数据挖掘时往往数据量非常大，在少量数据上进行挖掘分析需要很长的时间，数据归约技术可以用來得到数据集的归约表示，它小得多，但仍然接近于保持原数据的完整性，并结果与归约前结果相同或儿乎相同。由于数据文件信息较多且有很多数据和本课题无关,为了减少资源和时间的浪费，所以在进行分析前先将excel表格进行删减和求和，优化数据,使数据更加直观便于分析。处理前数据如图4-1所示.处理后数据如图4-2所示。9 1 t V F X学生初條必缄仃号m 12开头为计算机专,，13. 14开头为网络专业）入:：W：M: 畤丽wOC2：序久烷c：r： Stiis*

6、syKgw 齐：护*tta wtta9 fc5 5 S?f q A*wt1HOICl 8110：9i ro3H03C 84U04$1105a6110$4 0）?110?3 03a? coanacCO 8” CDH09DI 810UIDMCO11till% 20HU131113图4-1表格数据处理前Kmc/.SX 詆2看= 2R二2r MEEMla*”:MgX.JIT*cs=11Jwr：X?5 呼WWW：沙淨曲9： T2rx：Q：CL 伍MXUC4E2S6CSUX5T.X讯30XU.Mu.wf 1X.Z3uU WX43zxX.MKWifI廿il.M l99 XM：r IO.MSCC44-2处

7、理后数据import pan das as pdcateri ng_sale=G/scour.xlsxdata=pd.read_excel（cateri ng_sale,index_col二u学生） prin t（data.describe（）print（len（data）物理组成原理count35.000000mean63. 14285773.417143std12. 44787512.389689min36.00000043.60000025%57.00000067.30000050%63.00000071.80000075%70.00000093.400000max89.0000009

8、5.00000035图43 数据初筛结果上图中Count代表数量，Mean代表均值，Std代表标准差，Min代表最小值，50%代表中位数，Max代表最大值。plt.rcParamsaxes. un icodeminusFalseplt.figure（）p=data.boxplot（return_type=,dict,）x=p,fliers,O.get_xdata（）y=p,flierslO.get_xdata（）y.sort（）for i in range（len（x）:if i0:plt.annotate（yi,xy=（xi/yi）,xytext=（xi+0.05-0.8/（yi-yi-l

9、）/yi）else:plt.annotate（yi,xy=（xi/yi）,xytext=（xi+0.08,yi）plt.showf）得到的检查结果如下图2-6所示：4-6 异常值检测箱型图5.数据分析数据分析是指用适当的统计方法对收集來的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值，是实验、测量、观察、调查等的结果，常以数量的形式给出。数据分析的目的与意义数据分析的目的是把隐没在一大批看來杂乱无章的数据中的信息集中、萃取和提炼出來，以找出所研究对象的内在规律。1绘制饼

10、状图饼状图显示一个数据系列（数据系列：在图表中绘制的相关数据点，这些数据源自数据表的行或列。图表中的每个数据系列具有唯一的颜色或图案并且在图表的图例中表示。可以在图表中绘制一个或多个数据系列。饼状图只有一个数据系列。）中各项的大小与各项总和的比例。饼状图中的数据点（数据点：在图表中绘制的单个值，这些值由条形、柱形、折线、饼状图或圆环图的扇面、圆点和其他被称为数据标记的图形表示。相同颜色的数据标记组成一个数据系列。）显示为整个饼状图的百分比。饼状图是以圆形代表研究对象的整体，用以圆心为共同顶点的各个不同扇形显示各组成部分在整体中所占的比例，要注明各扇形所代表的项目的名称（可用图例表

11、示）及其所占百分比。饼状图可以比较清楚地反映出部分与部分、部分与整体之间的数量关系. 易于显示每组数据相对于总数的大小.而且显现方式直观。为了使图中数据更加直观，这里使用饼状图，代码如下：import numpy as upimport matplotlib.mlab as mlabimport matplotlib.pyplot as pitfont.sans-serif=SimHeiplt.rcParams raxes.u nicode_mi nu s=Falselabels=* 不及格,/,60-70,；70-80,；80-90；90-100,X=9,17,7,2,0fig=plt.fi

12、gure（）plt.pie（X/labels=labels/autopct=l%1.2f%1）plt.titlef大学物理1成绩分布图J所得到的饼状图为大学物理1,如下图5-1所示:图5-1物理成绩分布图图5-4组成原理成绩分布图6.挖掘建模本课题研究的是对大学物理各个分数段的人及格儿率的预测，并通过数据检测，检测是否在计算机组成原理学习中存在困难，并及时给与提醒，根据数据挖掘分析。1用代码5-1求总的信息爛。2手工测算高数1,高数2对于数据结构及格情况的条件爛。3信息增益=总信息爛-条件爛。4参考信息增益，用信息增益多的作根节点，画出最浅决策树。2具体实现代码及过程（1）利用以下代码将e

13、cxel表格导入listimport xlrddef creatDataf）:file = G:离散化.xlsxwb = xlrd.open_workbook（filename=file）ws = wb.sheet_by_name（离散化）data =for r in range（ws.nrows）:col =for c in range（ws.ncols）:col.append（ws.cell（r, c）.value）data.append（col）labels =物理计算机组成原理,return data, labels（2）利用以下代码计算信息爛from math import logd

14、ef sha nnon_en tropy（data）:enteries=len（data）label_count=for v in data:currentJabel=v-3if currentjabel not in label_countkeys（）:label_countcurrent_label=0label_countcurre nt_label+=lentropy=0.0for key in label_count:prob=float（labeLcou ntkey）/enteriesentropy-=prob*log（prob,2）return entropyif _name_

15、= _main_data, features = creatData（）print（data）prin t（shan non_ entropy（data）决策树图7.数据挖掘过程柱状图是一种以长方形的长度为变量的表达图形的统计报告图，由一系列高度不等的纵向条纹表示数据分布的情况，用來比较两个或以上的价值（不同时间或者不同条件），只有一个变量，通常利用于较小的数据集分析。柱状图亦可横向排列，或用多维方式表达。绘制柱状图的代码如下所示：plt.rcParams rfont.sansserif二SimHeiplt.rcParamsaxes.u nicode_mi nu sn ame_list=不及格T及格T良好,num _list=60/49,27num _listl=5/5/9x=list（range（len（num_list）total_width, n=0.8, 2width=total_width/nplt.bar（x/num_list/width=widthjabel=及格,fc=yx i=xi+widthplt.bar（x,numJistl, width=width/label=l不及格:tickabel二name_list,fc=,rl） pitege nd（） plt.show（）得到如图7-1所示的柱状图图7-1

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？