数据挖掘实习报告.docx

资源描述

数据挖掘实习报告.docx

《数据挖掘实习报告.docx》由会员分享，可在线阅读，更多相关《数据挖掘实习报告.docx（16页珍藏版）》请在冰豆网上搜索。

数据挖掘实习报告.docx

数据挖掘实习报告

　　篇一：

数据挖掘实习报告

　　通过半年的实习，我在这里得到了一次较全面的、系统的锻炼，也学到了许多书本上所学不到的知识和技能。

以下是我这次的实习鉴定。

　　经历了实习，对社会也有了基本的实践，让我学到了书本以外的知识，实习期间，我努力尽量做到理论与实践相结合，在实习期间能够遵守工作纪律，不迟到、早退，认真完成领导交办的工作。

在实习鉴定中，我参与了整个数据分析工作，从数据获取到数据清洗、数据报表的制定到模型的建立以及模型监控等等，让我充分学习了数据分析岗位的实际操作。

　　在实习初期，项目经理安排了我参与数据获取的相关工作，主要是编写SQL代码在linux上用Perl语言调用获取数据。

起初觉得自己对SQL语言了解较多，以为这份工作非常简单。

但实际操作起来才知道，在数据量达到几百兆甚至上GB级别的时候，所学的SQL根本解决不了问题。

经向项目经理学习，这才知道了如何使用分层次操作等速度较快的SQL技巧。

通过这两个月的实习充分认识到所学知识远远不够。

　　完成数据获取阶段之后，项目经理开始安排数据清洗以及数据报表制定的相关工作。

接到这份工作之初，对数据清洗并没有太多的认识，以为很多都是按照《数据挖掘》教材中步骤进行就可以的。

但经过项目经理指导之后才知道数据清洗之前首先要对项目业务进行一定的了解，只有清晰了业务数据的来源、数据的实际意义才知道哪些数据可以称为极端值，哪些数据又是不正常的，制定报告或者交给模型分析师时需要去除的等等。

同时，在制定数据报表的同时学习了很多excel函数的使用，透视表的使用，PPT报告的书写等等。

　　在实习的后三个月，开始接触了模型的分析与监控。

在学习《机器学习》以及《数据挖掘》书本时，总会想到各种各样的分类模型，也总会认为模型准确率高的模型才会是好模型。

在运用统计模型之前，项目经理首先向实习生介绍了目前挖掘部门常用的分类模型以及具体的一些使用方法。

其中逻辑回归模型、决策树模型是常用的分类模型，回归分析和时间序列模型是常用的预测模型，这与平日所学基本一致。

正当好奇为什么不使用支持向量机以及神经络模型之时，项目经理说，由于模型结果都是要给市场部门的同事报告的，所以模型结果最好能够简单易懂的。

在实际工作才知道，一般除了用模型准确率来衡量模型的效果外，还有例如灵敏度、ROC曲线、RA曲线等等指标值。

而模型的操作过程也不是想象的那么简单，并不是用R软件上的几个函数，几行代码就能解决的，选择什么参数、选择什么样的模型，当然最重要的还是选择什么样的基础数据作为模型的训练数据才是最重要的，这才发现项目经理之前提到的业务知识是多么的重要。

　　在模型建立之后就是模型监控了，由于是我负责的项目，所以项目经理也将监控这一任务交给了我。

数据挖掘模型通常情况下都是要上线的，但模型的效果会随着数据的变化而变化，当模型的指标达到一定程度时就需要修改模型。

在这一阶段，充分锻炼了我的程序编写能力。

　　在整一个实习过程，非常感谢项目经理给予了我数据挖掘整一个流程学习的机会，让我真正对数据挖掘的实际工作有了一定的认识，也让我学习到了很多学校学习中学不到的实际操作能力，在此表示衷心的感谢。

　　篇二：

数据挖掘实验报告

　　经贸学院市场营销专业

　　数据挖掘管理实验报告

　　实验名称：

数据挖掘—聚类分析

　　实验时间：

XX年12月21日

　　班级11252

　　姓名潘宏

　　学号1125219

　　成绩

　　指导老师王林

　　一、数据建模过程

　　1、启动SPSS双击窗口底部节点选项板中的“源”中的statistics文件建立文件，如图1。

　　图1

　　2、右击statistics文件编辑，如图2。

　　图

　　3、点击省略号其中一个选择文件打开。

单击应用并确定，如图3和

　　图3

　　图

　　4、双击输出选项中的表节点，如图5所示，表节点出现在工作区中。

　　图5

　　5、如图6所示，右击运行表节点。

可以看到图中关于客户资产购

　　平台价值的数据记录。

该数据包含A1，A2等字段。

　　图

　　6、如图7，在字段选项中双击类型节点，则类型节点出现在工作表

　　中。

　　图7

　　7、如图8，右击类型节点选择编辑，则出现一张关于字段的表，将所有字段角色项设为“输入”，这表示要将所有字段进行聚类分析。

　　最后点击应用、确定。

　　图

　　篇三：

《数据挖掘实训》weka实验报告

　　论文（报告、案例分析）

　　院系信息学院专业统计班级10级统计3班学生姓名李健学号XX210453任课教师刘洪伟

　　XX年01月17日

　　课程论文评分表

　　《数据挖掘实训》课程论文

　　选题要求：

　　根据公开发表统计数据，请结合数据挖掘理论与方法，撰写一篇与数据挖掘领域相关的论文。

写作要求：

（1）数据准确、有时效性，必须是最新的数据。

（2）文章必须有相应的统计方法，这些统计方法包括以前专业课中学到的任何统计方法，如参数估计、假设检验、相关与回归、多元统计等等。

　　（3）论文的内容必须是原创，有可靠的分析依据和明确的结论。

　　（4）论文按照规定的格式化撰写；（5）字数不少于XX字。

　　数据挖掘（WEKA软件）实验报告

　　统计学专业学生李健学号XX210453

　　关键词：

数据挖掘；游玩；因素；WEKA

　　本次实验指在熟练的运用软件weka进行数据处理，其中包括数据准备，关联规则等同时了解weka的基本用法。

　　一、软件介绍

　　1简介

　　数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西。

诚然，如果做算法实现甚至算法优化，确实需要很多背景知识。

但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西。

他们的精力，集中在特征提取，算法选择和参数调优上。

那么，一个可以方便地提供这些功能的工具，便是十分必要的了。

而weka，便是数据挖掘工具中的佼佼者。

　　WEKA的全名是怀卡托智能分析环境（WaikatoEnvironmentforKnowledgeAnalysis），是由新西兰怀卡托（Waikato）大学开发的机器学习软件，纯Java技术实现的开源软件，遵循于GNUGeneralPublicLicense，跨平台运行，集合了大量能承担数据挖掘任务的机器学习算法，分类器实现了常用ZeroR算法、Id3算法、J4．8算法等40多个算法，聚类器实现了EM算法、SimpleKMeans算法和Cobweb算法3种算法，能对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。

2oo5年8月，在第11届ACMSIGKDD国际会议上，怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖，WEKA系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一。

WEKA使用的是一种叫做arff（Attribute—RelationFileFormat）的数据文件结构。

这种arff文件是普通的ASCII文本文件，内部结构很简单，主要是测试算法使用的轻量级的数据文件结构。

arff文件可以自己建立，也可通过JDBC从Oracle和Mysql等流行数据库中获得。

整个arf文件可以分为两个部分。

第一部分给出了头信息（Headinformation），包括关系声明（RelationDeclaration）和属性声明（AttributeDeclarations）。

第二部分给出了数据信息（Datainformation），即数据集中给出的数据。

关系声明的定义格式为：

@relation；属性声明的定义格式为：

　　@attribute；数据信息的定义格式为独占一行的@data，后面跟着的就是数据信息。

2.安装

　　Weka的官方地址是http:

///ml/weka/。

点开左侧download栏，可以进入下载页面，里面有windows，macos，linux等平台下的版本，我们以windows系统作为示例。

目前稳定的版本是。

　　如果本机没有安装java，可以选择带有jre的版本。

下载后是一个exe的可执行文件，双击进行安装即可。

　　安装完毕，打开启动weka的快捷方式，如果可以看到下面的界面，那么恭喜，安装成功了。

　　共有4个应用，分别是1）Explorer

　　用来进行数据实验、挖掘的环境，它提供了分类，聚类，关联规则，特征选择，数据可视化的功能。

（AnenvironmentforexploringdatawithWEKA）2）Experimentor

　　用来进行实验，对不同学习方案进行数据测试的环境。

（Anenvironmentforperformingexperimentsandconductingstatisticaltestsbetweenlearningschemes.）3）KnowledgeFlow

　　功能和Explorer差不多，不过提供的接口不同，用户可以使用拖拽的方式去建立实验方案。

另外，它支持增量学习。

（ThisenvironmentsupportsessentiallythesamefunctionsastheExplorerbutwithadrag-and-dropinterface.Oneadvantageisthatitsupportsincrementallearning.）4）SimpleCLI

　　篇四：

实训报告

　　移动络优化实训报告

　　班级：

通信141学生姓名：

　　班级序号：

　　一、设计背景

　　内容包括：

络优化应用背景介绍2G系统图、LTE系统图

　　1、络优化应用背景介绍

　　由于核心、传输的元少且环境稳定，移动通信优化实际上以无线优化为主，因此移动通信络优化也可称为无线络优化。

无线络是通过改善手机和基站的空中接口信号性能来完成优化过程，提高通信质量的。

由于移动络变是不固定的，其动态变化频率高，再加上庞大的用户群体、用户的移动性、话务密度的不均匀性、频率不均匀性等，导致无线络的信号接口稳定性能差，反映到用户方面即是通信质量的不稳定及弱势。

比如，无法接通、通话无端中断、杂音干扰、单方通话等故障。

移动通信络的建设耗费大量人力、财力，但是就目前此阶段现状而言，通信质量的不尽如意使得其投资与回报不成正比。

而不间断的络硬件、数据调整，资源优化配置等途径可以优化通信络，可保持络处于最佳运行状态，由此改善通信服务质量，使得用户可以切身感觉到通畅淋漓的络速度。

　　2、移动络优化的现状

　　由于当前技术的限制，移动通信络优化的实现需要借助于一定的工具，并且要求相关工作人员要具备较高的技能素质。

一般而言，优化队伍的组成需具有资深的络优化工程师，若干技术人员，以及大量的自动化、智能化软件工具。

现有的络优化工具主要有以下三种类型：

　　其一，各系统供应商提供的OMC系统；

　　其二，无线络及交换络测试分析的仪器、第三方软件，如路测软件和信令分析软件；

　　其三，无线频率规划软件。

其中，路测软件等是用来提供数据的，供应商提供的OMC系统多用来维护系统的。

但是二者之间的联系甚是不紧密，再加上络优化涉及到交换技术、无线技术、频率配置、切换和信令、话务统计分析等技术，形成海量的信息急需高技术处理的局面，最终致使优化工作比较粗放。

　　络优化的具体操作大致分为数据采集、数据分析、实施、评估四个阶段。

数据采集需要耗费大量的人力通过人工操作、整理、归类、汇总各类工具采集的海量数据。

此阶段工作量大，但是难度较低。

数据分析阶段工作量虽小但是很有难度。

此阶段中，工程师需通过前阶段的数据来判断、分析、确定所反映的问题，并得出一个包含不同地点、层次元的优化方案。

然后是实施阶段，实施调整方案中确定的络调整操作。

最后是评估阶段，此阶段需再次进行数据采集工作，观察调整方案是否达到了效果，如果没有达到预期的效果，需再次重复整个过程；如果达到了效果，就再次设定新的、更高的优化目标，整个过程将再次在更高的层次重复。

　　3、移动络发展的趋势

　　智能优化是移动通信络优化发展的趋势。

具体说来，可以分为下三个层面：

　　一体化处理和简单分析

　　正如前文多说，络优化涉及到众多技术及工具。

但是不同类别的工具确只对特定的问题才能发挥效能，这就造成了优化工具虽然多，却各自分散难以整合，不能针对整个待整治的络组成优化方案。

我们认为，系统供应商或者第三方软件提供商应该与运营商形成长期的战略合作络伙伴关系，通过持续努力，开发将环境数据和系统数据紧密绑定的软件系统，使该软件系统逐步具备对海量数据的一体化处理、简单分析、数据挖掘、辅助智能决策、自动络参数调整等功能，使运营商的优化和维护人员从工作量大但难度相对较低的简单、低层次的数据采集、实施阶段的工作中解放出来，从而可以专注于深层次的系统和环境方面的优化方法的研究，将研究成果迅速应用于软件系统，并且能够迅速得到证明的高级优化工作中来。

这就是一体化处理和简单分析。

　　数据挖掘、辅助智能决策

　　数据分析是络通信优化难度最大的一个阶段，它需要处理将大量不同技术领域的数据，而其中的寻求各种数据的内在关系是难中之难。

数据挖掘是统计学和机器学的综合提，通过数据挖掘技术可以从数据库有效地筛过滤、筛选、分析、并提取价值信息，从而挖掘各数据的内在关联。

数据挖掘可以挖掘一系列数据之间的联系，使得工程师建立符合自身团队特色的数据分析体系，从而为整体优化方案的确立提供辅助决策的功能。

数据挖掘可以使络优化人员在短时间内挖掘各数据间的关联，可以解决许多以前我们想解决却缺乏解决办法的问题。

　　自动络参数调整

　　当移动络优化系统的优化工具具备了辅助决策功能后，其数据分析结果是相当精确无误的，这点已被无数次实验结果所验证。

然而，这并不是优化工具进化的终结点，在其前方仍然有大量可进步的空间。

此时，我们可将优化软件的输出直接作用于OMC系统的配置功能模块上，通过OMC系统直接“指挥”络调整自己的系统参数。

由此省去中间的设备经过及缓解，可以更好地适应络环境参数的动态变化，从而为为用户提供更加稳定及完善的通信质量。

　　2G系统图

　　LTE系统图

　　二、新建GSM站点设计

（1）按要求补充新建GSM站点信息

（2）在EASYRNP的相应位置上新建站点，显示相关信息站点名、小区名、LAC、频点等信息

　　GSM站点信息表

　　三、新建LTE站点设计

（1）按要求补充新建LTE站点信息

（2）在MapInfo的相应位置上新建站点，显示相关信息站点名、小区名、TAC、频点、PCI等信息

　　（3）根据站点具体位置规划邻区

　　篇五：

实习报告

　　辽宁工程技术大学

　　本科生实习报告书

　　教学单位理学院

　　专业数学与应用数学

　　班级

　　学生姓名

　　学号

　　指导教师

　　四大分支。

生物统计学用统计方法研究生物界的客观现象；数量遗传学用数学方法研究在各种不同情况下全体基因型的变化，研究数量性遗传规律；数学生态学用数学理论和和方法描述生态系统的的行为动态定量关系，建立各种生态模型，模拟动物行为；数学生物分类学使用现代数学方法和工具（特别是电子计算机）对古老的生物分类学进行研究。

数学方法几乎渗透到生物学的每个角落。

有人预言：

生物学将会取代物理学成为使用数学工具最多的部门，21世纪可能是生物数学的黄金时代。

　　生物数学具有丰富的数学理论基础，包括集合论、概率论、统计数学、对策论、微积分、微分方程、线性代数、矩阵论和拓扑学,还包括一些近代数学分支,如信息论、图论、控制论、系统论和模糊数学等。

由于生命现象复杂,从生物学中提出的数学问题往往十分复杂,需要进行大量计算工作。

因此，电脑是生物数学产生和发展的基础，成为研究和解决生物学问题的重要工具。

然而就整个学科的内容而论，生物数学需要解决和研究的本质方面是生物学问题，数学和电脑仅仅是解决问题的工具和手段。

因此，生物数学与其他生物边缘学科一样，通常被归属于生物学而不属于数学。

　　在以前的学习中，生物就是生物，数学就是数学，两者看似没有什么关联。

而实际上生物与数学息息相关，现实中大多数学科都与数学有关并以之为基础，通过本次学习，我意识到数学的强大，无处不在。

　　三．数据科学家

　　数据科学家，一个极具发展潜力的职业，现在的数据科学家已成为了高薪职业。

招聘站报告称，数据科学家平均年薪为万美元，而程序员平均年薪为万美元，差距由此可见。

“数据科学家”在XX年由NatahnYau首次提出，其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。

数据科学家集技术专家与数量分析师的角色于一身，与传统数量分析师相比：

后者通常利用企业的内部数据进行分析，以支持领导层的决策;而前者更多的是通过关注面向用户的数据来创造不同特性的产品和流程，为客户提供有意义的增值服务。

数据科学家”其实是从“大数据”引发的术语混乱中形成的。

数据科学的核心能力被定义为：

SQL、统计、预测建模和编程、Python等，这些听起来很合理。

　　但是很快就有更多名词添加到其中：

Hadoop/MapReduce、机器学习、可视化，甚至还有传统的数学、物理、计算机科学等类似能力。

　　许多人呼吁专业领域、商业智慧、创造力及表达能力也是同样重要的。

一个数据科学家不能只擅长数字（这种人被称为统计学家或分析师），也要能够理解业务：

什么样的数据或结果才是有参考性的;能够找到新的数据集并为其创造新产品;然后能够让CEO们理解这一切。

这是一个艰巨的任务，这个世界上这类人是很少的。

作为顶尖的数据科学家，不要求他们对环境做出什么积极的改变，但是需要他们尝试做一些真正先进的东西，帮助大家更好的解决业务上的问题。

　　数据科学家的六种能力：

　　1.对数据的提取与综合能力；

　　2.统计分析能力；

　　3.数据洞察与信息挖掘能力；

　　4.开发软件能力；

　　5.络编程能力；

　　6.数据的可视化表示能力。

　　现在是一个大数据时代，几乎所有的事情都离不开数据处理。

数据科学家，非常有前景的职业，也是我立志的目标。

　　四．数学建模

　　从学习专业课开始，我就了解到，应用数学的学习离不开数学建模。

在不断的学习中，深刻的学习到数学建模的重要性。

当需要从定量的角度分析和研究一个实际问题时，人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上，用数学的符号和语言作表述，也就是建立数学模型，然后用通过计算得到的结果来解释实际问题，并接受实际的检验。

这个建立数学模型的全过程就称为数学建模

　　数学是研究现实世界数量关系和空间形式的科学，在它产生和发展的历史长河中，一直是和各种各样的应用问题紧密相关的。

数学的特点不仅在于概念的抽象性、逻辑的严密性、结论的明确性和体系的完整性，自从20世纪以来，随着科学技术的迅速发展和计算机的日益普及，人们对各种

　　篇六：

暑假实习报告

　　合肥学院计算机科学与技术系

　　系别：

　　专业：

　　班级：

　　姓名：

　　学号：

　　成绩：

认知实习报告计算机科学与技术计算机科学与技术10级计本班1004011004年日月

　　认知实习报告

　　根据合肥学院人才培养方案中的第五学期认知实习教学大纲的要求，我于XX年6月18号至XX年9月1日在校实习，进行“冰箱泄漏热负荷及性能预测”项目研究。

　　一、项目简介

　　项目名称：

冰箱泄漏热负荷及性能预测研究

　　委托方：

合肥美菱股份有限公司

　　技术目标和内容：

　　1、对已有产品漏热测试数据进行分析处理，拟合出冰箱保温层和门封泄漏热负荷的计算方法；

　　2、根据冰箱泄漏热负荷、制冷系统设计、零部件选型，研究制定出冰箱性能（耗电量、开机率等）预测方法。

　　二、认知实习经历

　　项目需要大量有关聚类和分类的知识基础，我负责的是K-means算法、支持向量机（SupportVectorMachine，SVM）的研究。

　　1、K-means算法的学习

　　MacQue既在1967年提出的K-means算法,是一种被广泛应用于科学研究和工业应用中的经典聚类算法。

K-means算法的核心思想是把n个数据对象划分为k个聚类,使每个聚类中的数据点到该聚类中心的平方和最小。

　　K-means算法是典型的局域原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最有分类，使得评价指标J最小。

算法采用误差平方和准则函数作为聚类准则函数。

　　2、K-means算法的研究

　　我们经常接触到的聚类分析，一般都是数值聚类，一种常见的做法是同时提取N种特征，将它们放在一起组成一个N维向量，从而得到一个从原始数据集合到N维向量空间的映射——总是需要显式地或者隐式地完成这样一个过

　　程，然后基于某种规则进行分类，在该规则下，同组分类具有最大的相似性。

　　假设我们提取到原始数据的集合为（x1,x2,,xn），并且每个xi为d维的向量，K-means聚类的目的就是，在给定分类组数k（k≤n）值的条件下，将原始数据分成k类S={S1,S2,,Sk}，在数值模型上，即对以下表达式求最小值：

（1）

　　这里μi表示分类Si的平均值。

设我们一共有N个数据点需要分为K个cluster簇，k-means要做的就是最小化

（2）

　　这个函数，其中

　　0。

直接寻找

　　先固定

　　和

　　在数据点n被归类到clusterk的时候为1，否则为来最小化

　　并不容易，不过我们可以采取迭代的办法：

，很容易看出，只要将数据点归类到离他最近的那，再求最优的

　　应该满足：

　　。

将

　　对

　　求导并，选择最优的个中心就能保证

　　最小。

下一步则固定令导数等于零，很容易得到

　　最小的时候

　　（3）亦即

　　的值应当是所有clusterk中的数据点的平均值。

由于每一次迭代都是取到

　　的最小值，因此

　　只会不断地减小（或者不变），而不会增加，这保证了k-means最终会到达一个极小值。

虽然k-means并不能保证总是能得到全局最优解，但是对于这样的问题，像k-means这种复杂度的算法，这样的结果已经是很不错的了。

　　K-means算法流程如下，流程如图1所示：

（1）从n个数据对象中任意选取k个对象作为初始的聚类中心。

（2）分别计算每个对象到各个聚类中心的距离,把对象分配到距离最近的聚类中。

　　（3）所有对象分配完成后,重新计算k个聚类的中心。

　　（4）与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转

（2）,否则转（5）。

　　（5）输出聚类结果。

　　图1K-means流程图

　　虽然K-means易于实现，但存在如下的缺点：

（1）在K-means算法中K是事先给定的，这个K值的选定是非常难以估计的。

很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。

（2）.K-means算法是动态聚类，具有一定的自适应性，但是结果容易收到类别个数和出师聚类中心的影响，因此聚类结果取决于K值和初始聚类中心的选择。

（3）.从K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚

展开阅读全文