大数据创新课程总结报告.docx

资源描述

大数据创新课程总结报告.docx

《大数据创新课程总结报告.docx》由会员分享，可在线阅读，更多相关《大数据创新课程总结报告.docx（7页珍藏版）》请在冰豆网上搜索。

大数据创新课程总结报告.docx

大数据创新课程总结报告

*******************

创新课程

*******************

兰州理工大学

计算机与通信学院

2015年秋季学期

学习总结报告

专业班级：

计算机科学与技术13级4班

*****

学号：

********

******

成绩：

摘要

数据（Data）是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。

数据经过解释并赋予一定的意义之后，便成为信息。

数据处理（dataprocessing）是对数据的采集、存储、检索、加工、变换和传输。

本文介绍了多种数据分析与处理的方法，数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

这一过程也是质量管理体系的支持过程。

在实用中，数据分析可帮助人们作出判断，以便采取适当行动。

数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

关键词：

数据处理、数据采集、存储、检索

一、数据分析与处理概述

越来越多的应用涉及到大数据，这些数据的属性，包括数量，速度，多样性等等都是呈现了数据不断增长的复杂性，所以，数据的分析方法在数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。

基于此，数据分析的方法理论有哪些呢？

1.1数据分析

PredictiveAnalyticCapabilities（预测性分析能力）

数据挖掘可以让分析员更好的理解数据，而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

DataQualityandMasterDataManagement（数据质量和数据管理）

数据质量和数据管理是一些管理方面的最佳实践。

通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

AnalyticVisualizations（可视化分析）

不管是对数据分析专家还是普通用户，数据可视化是数据分析工具最基本的要求。

可视化可以直观的展示数据，让数据自己说话，让观众听到结果。

SemanticEngines（语义引擎）

我们知道由于非结构化数据的多样性带来了数据分析的新的挑战，我们需要一系列的工具去解析，提取，分析数据。

语义引擎需要被设计成能够从“文档”中智能提取信息。

DataMiningAlgorithms（数据挖掘算法）

可视化是给人看的，数据挖掘就是给机器看的。

集群、分割、孤立点分析还有其他的算法让我们深入数据内部，挖掘价值。

这些算法不仅要处理大数据的量，也要处理大数据的速度。

假如大数据真的是下一个重要的技术革新的话，我们最好把精力关注在大数据能给我们带来的好处，而不仅仅是挑战。

1.2　数据处理

数据处理时代理念的三大转变：

要全体不要抽样，要效率不要绝对精确，要相关不要因果。

具体的大数据处理方法其实有很多，但是根据长时间的实践，笔者总结了一个基本的大数据处理流程，整个处理流程可以概括为四步，分别是采集、导入和预处理、统计和分析，以及挖掘。

采集

数据的采集是指利用多个数据库来接收发自客户端的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。

比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。

并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。

也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测的效果，从而实现一些高级别数据分析的需求。

比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。

该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，还有，常用数据挖掘算法都以单线程为主

二、算法理论

2.1　随机森林算法

在机器学习中，随机森林（RandomForests）是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

由LeoBreiman和AdeleCutler发展、推论出的算法。

这个术语是1995年由贝尔实验室的TinKamHo所提出的随机决策森林（randomdecisionforests）而来的。

这个方法则是结合Breimans的"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造决策树的集合。

随机森林算法过程：

根据下列算法而建造每棵树：

1.用N来表示训练例子的个数，M表示变量的数目。

2.我们会被告知一个数m，被用来决定当在一个节点上做决定时，会使用到多少个变量。

m应小于M

3.从N个训练案例中以可重复取样的方式，取样N次，形成一组训练集（即bootstrap取样）。

并使用这棵树来对剩余预测其类别，并评估其误差。

4.对于每一个节点，随机选择m个基于此点上的变量。

根据这m个变量，计算其最佳的分割方式。

5.每棵树都会完整成长而不会剪枝（Pruning）（这有可能在建完一棵正常树状分类器后会被采用）。

2.2　高斯混合模型

高斯混合模型和k-means其实是十分相似的，区别仅仅在于GMM引入了概率。

高斯混合模型属于统计学习的模型中的概率模型。

所谓概率模型，就是指我们要学习的模型的形式是P（Y|X），这样在分类的过程中，我们通过未知数据X可以获得Y取值的一个概率分布，也就是训练后模型得到的输出不是一个具体的值，而是一系列值的概率（对应于分类问题来说，就是对应于各个不同的类的概率），然后我们可以选取概率最大的那个类作为判决对象（算法分类softassignment）高斯混合模型的学习过程就是训练出几个概率分布，对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率，然后我们可以选取概率最大的类所为判决结果。

三、算法实现

3.1随机森林算法

Trainingtree1/100...

Trainingtree10/100...

Trainingtree20/100...

Trainingtree30/100...

Trainingtree40/100...

Trainingtree50/100...

Trainingtree60/100...

Trainingtree70/100...

Trainingtree80/100...

Trainingtree90/100...

Trainingtree100/100...

Classifierdistributions:

18815nodeswereemptyandhadnoclassifier.

Classifierwithid=1wasusedat0nodes.

Classifierwithid=2wasusedat6685nodes.

Classifierwithid=3wasusedat0nodes.

Classifierwithid=4wasusedat0nodes.

3.2高斯混合模型

for（i=0;i

{

//calculatethevector,v=（X-u）

for（j=0;j<3;j++）

v[j]=pixel[j]-model->mean[j];

//calculatethesquareddistance,d=|v|^2

model->dist2=v[0]*v[0]+v[1]*v[1]+v[2]*v[2];

//zot:

thisisonlyequaltomahalanobisdistance

//whencovariancematrix=vI

//（v=scalarvarianceforallchannels）

model->mah2=model->dist2/model->var;

//即为马兹距离

//seeifXiscloseenoughtothismodel

if（model->mah2

break;

//thecurrentpixelmatchesoneoftheKmodels

//SFSquared是预定义的值

}

四、仿真试验结果及分析

4.1随机森林算法

它是利用bootstrap重抽样方法从原始样本中抽取多个样本,对每bootstrap

样本进行决策树建模，然后组合多棵决策树的预测,通过投票得出最终预测结果。

它具有很高的预测准确率，对异常值和噪声具有很好的容忍度，且不容易出现过拟合，在医学、生物信息、管理学等领域有着广泛的应用。

4.2高斯混合模型

所谓高斯混合模型（GMM）就是指对样本的概率密度分布进行估计，而估计的模型是几个高斯模型加权之和（具体是几个要在模型训练前建立好）。

其中，每个高斯模型就代表了一个类（一个Cluster）。

五、结束语

本次课题研究的是数据的分析与处理，在统计学领域，有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。

数据处理是系统工程和自动控制的基本环节。

数据处理贯穿于社会生产和社会生活的各个领域。

数据处理技术的发展及其应用的广度和深度，极大地影响着人类社会发展的进程。

通过数据分析与处理我们可以及时改善和纠正不当的生产措施，对生产计划做到实时跟踪，及时了解成本管制情况和人员思想动态，完善数据分析与处理可以让管理模式对生产流程进行科学管理。

当然，要做好数据分析与处理是十分困难的，在未来的学习和工作中我们还需加倍努力，希望能取得好成绩！

参考文献

1.JiaweiHan，MichelineKamber（著）,范明,孟小峰（译）.数据挖掘概念与技术（第二版）[M]..北京：

机械工业出版社,2007,3

2.《数据分析方法》，北京：

高等教育出版社.2006，2

展开阅读全文