大数据分析结课论文.docx

资源描述

大数据分析结课论文.docx

《大数据分析结课论文.docx》由会员分享，可在线阅读，更多相关《大数据分析结课论文.docx（10页珍藏版）》请在冰豆网上搜索。

大数据分析结课论文.docx

大数据分析结课论文

Forpersonaluseonlyinstudyandresearch;notforcommercialuse

大数据论文

摘要数据发展到今天，已不再是一个新的概念，基于大数据技术的应用也层出不穷，但作为一项发展前景广阔的技术，其很多作用还有待挖掘，比如为人们的生活带来方便，为企业带来更多利益等。

现今，互联网上每日产生的数据已由曾经的TB级发展到了今天的PB级、EB级甚至ZB级。

如此爆炸性的数据怎样去使用它，又怎样使它拥有不可估量的价值呢？

这就需要不断去研究开发，让每天的数据“砂砾”变为“黄金”。

那么如何才能将大量的数据存储起来，并加以分析利用呢，大数据技术应运而生。

大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

大数据的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化的处理。

本文就大数据技术进行了深入探讨，从大数据的定义、特征以及目前的应用情况引入，简述了大数据分析的统计方法、挖掘方法、神经网络方法和基于深度学习框架的方法，并对大数据分析流程和框架、大数据存储模式和服务机制、大数据分析中的多源数据融合技术、高维数据的降维技术、子空间分析、集成分析的处理方法等做了概述。

最后，以网络信息安全为例，阐述了该领域的大数据分析过程和方法。

关键词大数据；数据挖掘；深度学习；大数据分析；网络信息安全

一、大数据概述

1.1大数据的定义和特征

目前，虽然大数据的重要性得到了大家的一致认同，但是关于大数据的定义却众说纷纭。

大数据是一个抽象的概念，除去数据量庞大，大数据还有一些其他的特征，这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。

一般意义上，大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。

科技企业、研究学者、数据分析师和技术顾问们，由于各自的关注点不同，对于大数据有着不同的定义。

通过以下定义，或许可以帮助我们更好地理解大数据在社会、经济和技术等方而的深刻内涵。

2010年ApacheHadoop组织将大数据定义为，“普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集”。

在此定义的基础上，2011年5月，全球著名咨询机构麦肯锡公司发布了名为“大数据：

下一个创新、竞争和生产力的前沿”的报

告，在报告中对大数据的定义进行了扩充。

大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。

该定义有两方而内涵：

（1）符合大数据标准的数据集大小是变化的，会随着时间推移、技术进步而增长；

（2）不同部门符合大数据标准的数据集大小会存在差别。

目前，大数据的一般范围是从几个TB到数个PB（数千TB）[2]。

根据麦肯锡的定义可以看出，数据集的大小并不是大数据的唯一标准，数据规模不断增长，以及无法依靠传统的数据库技术进行管理，也是大数据的两个重要特征。

大数据价值链可分为4个阶段:

数据生成、数据采集、数据储存以及数据分析。

数据分析是大数据价值链的最后也是最重要的阶段，是大数据价值的实现，是大数据应用的基础，其目的在于提取有用的值，提供论断建议或支持决策，通过对不同领域数据集的分析可能会产生不同级别的潜在价值。

在日新月异的IT业界，各个企业对大数据都有着自己不同的解读.大数据的主要特征5个，即5"V”特征：

Volume（容量大）、Variety（种类多）、Velocity（速度快）、难辨识（veracity）和最重要的Value（价值密度低）。

Volume（容量大）是指大数据巨大的数据量与数据完整性。

可指大数据集合中包含的数据多，也可指组成大数据的网络包含的子数据个数多。

Variety（种类多）意味着要在海量、种类繁多的数据间发现其内在关联。

大数据中包含的各种数据类型很多，既可包含各种结构化数据类型，又可包含各种非结构化数据类型，乃至其他数据类型。

Velocity（速度快）可以理解为更快地满足实时性需求。

大数据的结构和内容等都可动态变化，而且变化频率高、速度快、范围广，数据形态具有极大的动态性，处理需要极快的实时性。

Veracity（难辨识）可以体现在数据的内容、结构、处理、以及所含子数据间的关联等多方面。

大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数。

数间关联模糊不清、并且可能随时随机变化。

Value（价值密度低）是指大数据的价值密度低，大数据中，往往有用数据和大量无用数据混在一起，因此大数据处理的一项必要工作就是“不断地清垃圾、除噪声”。

大数据时代数据的价值就像沙里淘金，数据量越大里面真正有价值的东西就越少。

大数据除了以上介绍的四个主要特征外，还具有纬度高，多源性，不确定性、社会性等特征。

1.2大数据应用情况

大数据的类型大致可分为三类：

（1）传统企业数据（Traditionalenterprisedata）：

包括CRMsystems的消费者数据，传统的ERP数据，库存数据以及账目数据等。

（2）机器和传感器数据（Machine-generated/sensordata）：

包括呼叫记录（CallDetailRecords），智能仪表，工业设备传感器，设备日志（通常是Digitalexhaust），交易数据等。

（3）社交数据（Socialdata）：

包括用户行为记录，反馈数据等。

如Twitter，Facebook这样的社交媒体平台。

大数据挖掘商业价值的方法主要分为四种：

（1）客户群体细分，然后为每个群体量定制特别的服务。

（2）模拟现实环境，发掘新的需求同时提高投资的回报率。

（3）加强部门联系，提高整条管理链条和产业链条的效率。

（4）降低服务成本，发现隐藏线索进行产品和服务的创新。

从三大产业的角度将大数据的核心商业价值分类讨论。

大数据应用，是利用大数据分析的结果，为用户提供辅助决策，发掘潜在价值的过程。

从理论上来看：

所有产业都会从大数据的发展中受益。

但由于数据缺乏以及从业人员本身的原因，第一、第二产业的发展速度相对于第三产业来说会迟缓一些。

具体实例

洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。

google流感趋势（GoogleFluTrends）利用搜索关键词预测禽流感的散布。

统计学家内特.西尔弗（NateSilver）利用大数据预测2012美国选举结果。

麻省理工学院利用手机定位数据和交通数据建立城市规划。

梅西百货的实时定价机制。

根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。

医疗行业早就遇到了海量数据和非结构化数据的挑战，而近年来很多国家都在积极推进医疗信息化发展，这使得很多医疗机构有资金来做大数据分析。

二、大数据分析方法

统计方法：

指标对比分析法指标对比分析法

统计分析的八种方法一、指标对比分析法指标对比分析法，又称比较分析法，是统计分析中最常用的方法。

是通过有关的指标对比来反映事物数量上差异和变化的方法,有比较才能鉴别。

指标分析对比分析方法可分为静态比较和动态比较分析。

静态比较是同一时间条件下不同总体指标比较，如不同部门、不同地区、不同国家的比较，也叫横向比较；动态比较是同一总体条件不同时期指标数值的比较，也叫纵向比较。

二、分组分析法指标对比分析法

分组分析法指标对比分析法对比，但组成统计总体的各单位具有多种特征，这就使得在同一总体范围内的各单位之间产生了许多差别，统计分析不仅要对总体数量特征和数量关系进行分析，还要深入总体的内部进行分组分析。

分组分析法就是根据统计分析的目的要求，把所研究的总体按照一个或者几个标志划分为若干个部分，加以整理，进行观察、分析，以揭示其内在的联系和规律性。

统计分组法的关键问题在于正确选择分组标值和划分各组界限。

三、时间数列及动态分析法

时间数列。

是将同一指标在时间上变化和发展的一系列数值，按时间先后顺序排列，就形成时间数列，又称动态数列。

它能反映社会经济现象的发展变动情况，通过时间数列的编制和分析，可以找出动态变化规律，为预测未来的发展趋势提供依据。

时间数列可分为绝对数时间数列、相对数时间数列、平均数时间数列。

时间数列速度指标。

根据绝对数时间数列可以计算的速度指标：

有发展速度、增长速度、平均发展速度、平均增长速度。

动态分析法。

在统计分析中，如果只有孤立的一个时期指标值，是很难作出判断的。

如果编制了时间数列，就可以进行动态分析，反映其发展水平和速度的变化规律

指数分析法

指数是指反映社会经济现象变动情况的相对数。

有广义和狭义之分。

根据指数所研究的范围不同可以有个体指数、类指数与总指数之分。

指数的作用：

一是可以综合反映复杂的社会经济现象的总体数量变动的方向和程度；二是可以分析某种社会经济现象的总变动受各因素变动影响的程度，这是一种因素分析法。

操作方法是：

通过指数体系中的数量关系，假定其他因素不变，来观察某一因素的变动对总变动的影响。

用指数进行因素分析。

因素分析就是将研究对象分解为各个因素，把研究对象的总体看成是各因素变动共同的结果，通过对各个因素的分析，对研究对象总变动中各项因素的影响程度进行测定。

因素分析按其所研究的对象的统计指标不同可分为对总量指标的变动的因素分析，对平均指标变动的因素分析。

五、平衡分析法

平衡分析是研究社会经济现象数量变化对等关系的一种方法。

它把对立统一的双方按其构成要素一一排列起来，给人以整体的概念，以便于全局来观察它们之间的平衡关系。

平衡关系广泛存在于经济生活中，大至全国宏观经济运行，小至个人经济收支。

平衡分析的作用：

一是从数量对等关系上反映社会经济现象的平衡状况，分析各种比例关系相适应状况；二是揭示不平衡的因素和发展潜力；三是利用平衡关系可以从各项已知指标中推算未知的个别指标。

六、综合评价分析

社会经济分析现象往往是错综复杂的，社会经济运行状况是多种因素综合作用的结果，而且各个因素的变动方向和变动程度是不同的。

如对宏观经济运行的评价，涉及生活、分配、流通、消费各个方面；对企业经济效益的评价，涉及人、财、物合理利用和市场销售状况。

如果只用单一指标，就难以作出恰当的评价。

进行综合评价包括四个步骤：

1.确定评价指标体系，这是综合评价的基础和依据。

要注意指标体系的全面性和系统性。

2.搜集数据，并对不同计量单位的指标数值进行同度量处理。

可采用相对化处理、函数化处理、标准化处理等方法。

3.确定各指标的权数，以保证评价的科学性。

根据各个指标所处的地位和对总体影响程度不同，需要对不同指标赋予不同的权数。

4.对指标进行汇总，计算综合分值，并据此作出综合评价。

七、景气分析

经济波动是客观存在的，是任何国家都难以完全避免的。

如何避免大的经济波动，保持经济的稳定发展，一直是各国政府和经济之专家在宏观调控和决策中面临的重要课题，景气分析正是适应这一要求而产生和发展的。

景气分析是一种综合评价分析，可分为宏观经济景气分析和企业景气调查分析。

宏观经济景气分析。

是国家统计局20世纪80年代后期开始着手建立监测指标体系和评价方法，经过十多年时间和不断完善，已形成制度，定期提供景气分析报告，对宏观经济运行状态起到晴雨表和报警器的作用，便于国务院和有关部门及时采取宏观调控措施。

以经常性的小调整，防止经济的大起大落。

企业景气调查分析。

是全国的大中型各类企业中，采取抽样调查的方法，通过问卷的形式，让企业负责人回答有关情况判断和预期。

内容分为两类：

一是对宏观经济总体的判断和预期；一是对企业经营状况的判断和预期，如产品订单、原材料购进、价格、存货、就业、市场需求、固定资产投资等。

八、预测分析

宏观经济决策和微观经济决策，不仅需要了解经济运行中已经发生了的实际情况，而且更需要预见未来将发生的情况。

根据已知的过去和现在推测未来，就是预测分析。

统计预测属于定量预测，是以数据分析为主，在预测中结合定性分析。

统计预测的方法大致可分为两类：

一类是主要根据指标时间数列自身变化与时间的依存关系进行预测，属于时间数列分析；另一类是根据指标之间相互影响的因果关系进行预测，属于回归分析。

挖掘方法：

在大数据时代，数据挖掘是最关键的工作。

大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。

其主要基于人工智能，机器学习，模式学习，统计学等。

通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。

目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。

大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则等。

这些方法从不同的角度对数据进行挖掘。

（1）分类。

分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。

可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。

（2）回归分析。

回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。

它可以应用到对数据序列的预测及相关关系的研究中去。

在市场营销中，回归分析可以被应用到各个方面。

如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。

（3）聚类。

聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。

属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。

（4）关联规则。

关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。

关联规则的挖掘过程主要包括两个阶段：

第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。

关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

神经网络方法：

神经网络方法。

神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。

典型的神经网络模型主要分为三大类：

第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield的离散模型和连续模型为代表。

第三类是用于聚类的自组织映射方法，以ART模型为代表。

虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。

基于深度学习框架的方法：

深度学习是多学科领域的交叉，比如神经网络、人工智能、图建模、最优化理论、模式识别和信号处理。

需要注意的是本文所描述的深度学习是在信号和信息处理内容中学习出一种深度结构。

它不是对信号和信息处理知识的理解，尽管某些意义上说它俩相似，但深度学习重点在于学习出一种深度网络结构，是实实在在存在的一种计算机可存储结构，这种结构表示了信号的某种意义上的内涵。

从06年开始，深度结构学习方法（深度学习或者分层学习方法）作为机器学习领域的新的研究方向出现。

由于三种主要领域的技术进步（比如芯片处理性能的巨大提升，数据爆炸性增长和机器学习与信信号处理研究的进步），在过去的短短几年时间，深度学习技术得到快速发展，已经深深的影响了学术领域，其研究涉及的应用领域包括计算机视觉、语音识别、对话语音识别、图像特征编码、语意表达分类、自然语言理解、手写识别、音频处理、信息检索、机器人学。

深度学习的具体模型有

自动编码器（稀疏自动编码器、降噪自动编码器）、深度置信网络以及卷积神经网络。

3、简述大数据分析流程和框架、大数据存储模式与服务机制、大数据建模分析方法和深度学习理论

大数据的处理流程可以定义为在合适工具的辅助下，对广泛异构的数据源进行抽取和集成，结果按照一定的标准统一存储。

利用合适的数据分析技术对存储的数据进行分析，从中提取有益的知识并利用恰当的方式将结果展现给终端用户。

可分为三个主要环节：

数据抽取与集成、数据分析以及数据解释。

数据的处理与集：

成主要是完成对于己经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储。

首先将这些结构复杂的数据转换为单一的或是便于处理的结构。

还需对这些数据进行“去噪”和清洗，以保证数据的质量以及可靠性。

现有的数据抽取与集成方式可以大致分为以下4种类型：

基于物化或ETL方法的引擎，基于联邦数据库或中间件方法的引擎，基于数据流方法的引擎，基于搜索引擎的方法。

数据分析：

这是整个大数据处理流程的核心。

因为在数据分析的过程中，会发现数据的价值所在。

经过上一步骤数据的处理与集成后，所得的数据便成为数据分析的原始数据，根据所需数据的应用需求对数据进行进一步的处理和分析.传统的数据处理分析方法有挖掘建模分析（数据挖掘方法），智能建模分析（机器学习方法），统计分析等。

数据解释：

对于广大的数据信息用户来讲，最关心的并非是数据的分析处理过程，而是对大数据分析结果的解释与展示。

数据解释常采用的方法有：

可视化方式，人机交互方式，分析图表方式等，其中常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、向像素的技术和分布式技术等。

1.4.1MapReduce

MapReduce系统主要由两个部分组成:

Map和Reduce.MapReduce的核心思想在于“分而治之”，也就是说，首先将数据源分为若干部分，每个部分对应一个初始的键植（Key/Value）对，并分别给不同的Map任务区处理，这时的Map对初始的键一值（Key/Value）对进行处理，产生一系列中间结果Key/Value对，MapReduce的中间过程Shuffle将所有具有相同Key值的Value值组成一个集合传递给Reduce环节;Reduce接收这些中间结果，并将相同的Value值合并，形成最终的较小Value值的集合。

1.4.2分布式文件系统

分布式文件系统GFS。

这个分布式文件系统是个基于分布式集群的大型分布式处理系统，作为上层应用的支撑，为MapReduce计算框架提供低层数据存储和数据可靠性的保障。

GFS主要采取主从结构通过数据分块、追加更新等方式实现海量数据的高速存储。

1.4.3分布式并行数据库（BigTable）

BigTable中的数据均以子表形式保存于子表服务器上，主服务器创建子表，最终将数据以UFS形式存储于GFS文件系统中;同时客户端直接和子表服务器通信，Chubby服务器用来对子表服务器进行状态监控;主服务器可以查看Chubby服务器以观测子表状态检查是否存在异常，若有异常则会终比故障的子服务器并将其任务转移至其余服务器.

1.4.4开源实现平台Hadoop

现在Hadoop己经发展为一个包括分布式文件系统（HadoopDistributedFileSystem,HDFS）、分布式数据库（HBase、Cassandra）以及数据分析处理MapReduce等功能模块在内的完整生态系统（Ecosys-tem），现己经发展成为目前最流行的大数据处理平台。

在这个系统中，以MapReduce算法为计算框架，HDFS是一种类似于GFS的分布式文件系统，可以为大规模的服务器集群提供高速度的文件读写访问。

HBase是一种与BigTable类似的分布式并行数据库系统，可以提供海量数据的存储和读写，而且兼容各种结构化或非结构化的数据。

3.1大数据分析流程和框架

1）大数据的预处理阶段:

大数据的预处理过程即一个数据的清洗过程，从字而上理解是将已存储好的数据进行一个去“脏”的过程。

更确切的说法是将存储数据中可识别的错误去除。

在数据仓库中和数据挖掘过程中，数据清洗是使得数据在一致（Consisten-oy）、正确性（Correotness}、完整性（Completeness）和最小性（Minimality）四个指标满足上达到最优。

2）大数据的输入接口:

在大数据的预处理阶段完成后，对其满足输入规范的数据进行统一管理，并将输入数据进行一定的特征提取和数据的关联分析。

在通过使用输入接口的同时，开放算法接口模块卡，接收来自不同的算法，而对数据集进行分析和整理。

3）分析沙箱:

分析沙箱就研究而言，相当于一个资源组，在这个资源组里，分析专家们能够根据个人的意愿对数据进行各种探索。

在分析的整个流程中，沙箱为使用分析平台的专家们提供更为专业的模块接口和参数选择，方便分析人员提取更为有效的数据参数，来更加精确地展示分析结果。

4）大数据的输出接口:

作为大数据分析的出口，为大数据的输出提供了统一的规范和标准。

作为大数据展示的最后一道工序，大数据的输出接口应具备如下特点:

（1）规范性、

（2）可复用性及剩余资料保存性、（3）模型化、（4）查询共享性、（5）索引性。

5）大数据的展示:

可视化工具发展得如此迅速，同时也被越来越多地应用在各个领域，在大数据的结果展示中，采用数据可视化技术将更加高效形象地展示大数据的价值和鲜明的对比性。

3.2大数据存储模式与服务机制

分布式系统包含多个自主的处理单元，通过计算机网络互联来写作完成分配的任务。

分布式系统更能适应现在分布广泛的企业的组织结构，更加可靠，响应速度更快。

3.2.1大数据存储模式

分布式文件系统：

大数据存储需要多种技术的协同工作，其中文件系统为其提供最底层的存储能力的支持。

分布式文件系统是一个基于C/S的应用程序，允许来自不同终端用户访问和处理服务器上的文件。

GFS主要采取主从结构通过数据分块、追加更新等方式实现海量数据的高速存储。

分布式键值系统：

分布式键值系统用于存储关系简单的半结构化数据，可以看作是分布式表格系统的一种特例，它只提供基于主键的CRUD功能，一般用作分布式缓存。

分布式表格系统：

分布式表格系统对外提供表格模型，用于存储较为复杂的半结构化数据。

与分布式键值系统相比，它不仅支持简单的CRUD操作，还支持扫描某个主键范围的操作。

与分布式数据库相比，分布式表格系统主要是单表操作。

分布式数据库：

分布式数据库指的是多个物理上分散的数据库单元通过计算机网络互连组成的一个逻辑上统一的数据库。

它对用户透明，一般是单机关系型数据库扩展而来。

3.2.2大数据服务机制

服务是大数据发展的核心，唯有将重点放在数据的分析挖掘和应用上，才能最大程度实现大数据的真正价值，也唯有分析与应用才是大数据及大数据产业发展的重中之重。

因此可以认为，以数据为中心，为满足用户对数据的分析应用需求而提供的大数据服务将是大数据发展的核心。

同时，大数据服务不是一种通用型的服务，而是与基础数据和用户需求息息相关的定制化服务、知识型服务。

3.3大数据建模分析方法和深度学习理论

3.3.1大数据建模分析方法

第一，自动预测趋势和行为。

数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

第二，关联分析。

数据关联是数据库中存在的一类重要的可被发现的知识，若两个或多个变量的取值之间存在某种规律性，就称为关联。

关联分析旨在找出具有强相关关系的几个属性。

典型案例是啤酒和尿布的关联分析，关联分析经常用在电子商务的产品推荐中。

第三，聚类。

数据库中的一些相类似的记录可以划归到一起，即聚类。

聚类常常帮助人们对事物进行再认识。

在社交网络分析中经

展开阅读全文