大数据平台的关键技术Word下载.docx

资源描述

大数据平台的关键技术Word下载.docx

《大数据平台的关键技术Word下载.docx》由会员分享，可在线阅读，更多相关《大数据平台的关键技术Word下载.docx（12页珍藏版）》请在冰豆网上搜索。

大数据平台的关键技术Word下载.docx

我们可以将新摩尔定律同1439年前后古登堡发明印刷机时造成的信息爆炸作对比：

在1453—1503年这50年间大约印刷了800万本书籍，比1200年之前君士坦丁堡建立以来整个欧洲所有手抄书还要多，即50年内欧洲的信息增长了1倍；

而现在的数据增长速度则是每18个月全球信息总量翻一番。

图1可以清楚地看到大数据的增长，图2是IDC公司对未来全球数据总量的预测，图3则表明了大数据正在日益成为人们关注的焦点。

我们已经进入到大数据时代。

1.3本文结构

本文剖析了大数据处理的过程，从大数据的采集、大数据的预处理、大数据存储、大数据挖掘等四个方面来详细介绍，最后解析了大数据的机遇和挑战。

二、大数据采集

2.1采集定义

大数据的采集是指将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

并且利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，用户可以通过这些数据库来进行简单的查询和处理工作。

2.2采集技术

“大数据”,故名思议就是数据量比较大,单位一般用TB来计。

传统的数据采集方法如:

网络调查、留置问卷调查、邮寄问卷调查等适合数据需要量较小的采集,但还不能胜任大数据技术的要求。

由于传统的数据采集方法已经满足不了大数据采集工作的要求,所以开发者们在传统的数据采集方法上采用可一些新的数据采集方法,其中比较典型的有系统日志采集方法和网络数据采集方法。

下面给予采集方法方面的一些简介:

2.2.1系统日志采集方法

日志文件能够详细记录系统每天发生的各种各样的事件，对网络安全起着非常的重要作用。

网络中心有大量安全设备，将所有的安全设备逐个查看是非常费时费力的。

另外，由于安全设备的缓存器以先进先出的队列模式处理日志记录，保存时间不长的记录将被刷新，一些重要的日志记录有可能被覆盖。

因此在日常网络安全管理中应该建立起一套有效的日志数据采集方法，将所有安全设备的日记录汇总，进行统一管理。

优点:

数据信息完整性强,便于管理和查询，从中提取出有用的日志信息供网络安全管理方面使用，及时发现有关安全设备在运行过程中出现的安全问题，以便更好地保证网络正常运行。

缺点:

数据信息量较大,在选择时无用信息量较多,在分析和处理前必须先进行大量的数据筛选和过滤,需要投入的人力物力较多。

2.2.2网络数据采集方法

此方法主要用于非结构化数据的采集,是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取，并按照一定规则和筛选标准进行数据归类，并形成数据库文件的一个过程。

目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛（或数据采集机器人）、分词系统、任务与索引系统等技术进行综合运用而完成。

随着互联网技术的发展和网络海量信息的增长，对信息的获取与分拣成为一种越来越大的需求。

人们一般通过以上技术将海量信息和数据采集回后，进行分拣和二次加工，实现网络数据价值与利益更大化、更专业化的目的。

支持自定义表单、自适应采集、集群采集、仿人工式的随机采集数据、各种排重过滤等功能;

且其数据来源广,信息量丰富。

信息真实性存在争议,信息太多,过滤量较大,给数据采集工作增加工作量。

2.2.3特定方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据，可以通过与企业或研究机构合作，使用特定系统接口等相关方式采集数据。

三、数据预处理技术

在收集的原始数据中，存在着大量的杂乱性、重复性和不完整性问题，这些问题便给后面的数据分析和数据挖掘带来不少难题。

因此，对数据进行预处理显得尤为关键。

数据预处理不仅保证了挖掘数据的正确性和有效性，而且通过对数据格式和内容的调整，使数据更符合挖掘的需要，即清除与数据分析、挖掘无关的项，给挖掘算法提供更高质量的数据。

通常数据预处理分为数据清理、数据集成、数据变换和数据归约四个部分。

数据清理是要去除源数据集中包含的噪声数据和无关数据，处理遗漏数据和清洗脏数据等，解决现实世界数据不干净、不完整和不一致的问题。

主要包括重复数据处理和缺值数据处理，并完成一些数据类型的转换。

数据集成主要是将来自不同数据源的数据整合成一致的数据存储。

该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题，并非是简单的数据合并，而是把数据进行统一化和规范化处理后形成最初始的挖掘数据的复杂过程。

数据变换主要是将数据转换成适合挖掘的形式，包括平滑、聚类、规范化、属性构造等操作。

能大量减少元组数量，提高计算效率。

同时也提高了数据挖掘的起点，使得一个算法能够发现多层次的知识，适应不同应用的需要。

也可以通过数据仓库技术的多维立方体来组织数据。

数据归约是对数据处理的技术，如数据立方体聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示，而使得信息内容的损失最小。

四、大数据存储技术

3.1存储管理数据的背景

大数据平台的关键技术之一是大数据存储及管理技术。

近年来，随着IT行业的蓬勃发展，各种社交网站如雨后春笋般呈现在人们眼前，企业对数据处理的需求日益增长，由此催生了海量的信息，美国互联网数据中心指出，互联网上的数据每年将增长50%，每两年便将翻一番，面对庞大的信息量，如何存储及管理这些数据非常重要。

3.2数据压缩

在构建大数据平台时，在满足设计指标需求的前提下，构建方案的成本越低，大数据处理所获得的价值就越高。

数据存储不仅要求方便管理，在此基础上缩减存储成本是当今大数据存储的发展趋势。

传统的数据仓库解决方案通过堆叠硬件设备进行扩容的方法来实现对动态增长的数据的存储，这种方法成本过于昂贵，已经无法满足大数据平台的需求。

单纯地提高存储容量并不能从根本上解决问题。

首先,存储设备的采购预算越来越高,大多数企业难以承受如此巨大的开支。

其次,随着大数据平台的扩大,管理成本、占用空间、制冷能力、能耗等也都变得越来越高,其中能耗尤为突出。

因此,如何降低和治理海量数据的蔓延式增长也是需要面对的挑战。

目前，比较成熟的缩减数据存储成本的方法是采用数据压缩技术。

数据压缩技术，就是用最少的数码来表示信号的技术。

数据为什么能够压缩呢，首先，数据中间常存在一些多余成分，即冗余度。

例如在某文件中，某些符号会重复出现多次，这样的数据可以在编码中除去或减少。

另外，相邻数据之间往往有有一定的关联性，例如电视信号的相邻两帧之间往往只有小部分画面是不同的，因此相邻的帧可以通过某些数学变换得到，而不必存储整个帧信号。

数据压缩从对原始数据信息保留程度的角度可分为两种：

无损压缩和有损压缩。

无损压缩，顾名思义，就是对压缩后的数据进行解压缩后，得到的数据与原始数据一致。

但它的压缩率是受到数据统计冗余度的理论限制，一般为2:

1到5:

1。

这类方法广泛用于文本数据，程序和特殊应用场合的图像数据（如指纹图像，医学图像等）的压缩。

由于无损压缩的压缩比限制，往往不能满足人们的需求，于是出现了有损压缩。

有损压缩，是经过压缩、解压的数据与原始数据不同但是非常接近的压缩方法。

有损数据压缩又称破坏型压缩，即将次要的信息数据压缩掉，牺牲一些质量来减少数据量，使压缩比提高。

常见的声音、图像、视频压缩基本都是有损的mp3、divX、Xvid、jpeg、rm、rmvb、wma、wmv等都是有损压缩。

有损压缩有较高的压缩比，尽管会有一定程度的数据损失，但会在系统允许的范围内满足需求，音频能够在没有察觉的质量下降情况下实现10：

1的压缩比，视频能够在稍微观察质量下降的情况下实现如300：

1这样非常大的压缩比。

因此，通过数据压缩技术，可以有效的减少数据对存储的需求，降低成本。

3.3数据存储技术及管理

目前常用的数据存储技术也包括：

开发新型数据库技术、对海量数据进行分区操作、编写优良的程序代码、建立广泛的索引、加大虚拟内存、建立缓存机制、使用临时表和中间表、使用文本格式进行处理、使用文本格式进行处理、优化查询SQL语句、使用数据仓库和多维数据库存储等。

对于开发新型数据库技术，非关系型数据库即NoSQL，抛弃了关系数据库复杂的关系操作、事务处理等功能，仅提供简单的键值对（Key,Value）数据的存储与查询，换取高扩展性和高性能，满足论坛、博客、SNS、微博等互联网类应用场景下针对海量数据的简单操作需求；

新型分析型GBase8a数据库，是具有高效复杂统计和分析能力的列存储关系型数据库，以列为基本存储结构和数据运算对象，数据压缩比可达1：

5到1：

20，数据加载速度快，查询性能高。

解决了数据存储问题，下面就要对它进行有效的管理。

如今，数据已成为一种资产，因为企业在对客户办理业务的信息中进行分析、探索、总结，就能洞察客户所需，为其设计新产品，为客户个性化营销产生新的价值。

有效地管理数据，能创造更多的价值。

数据仓库是管理数据的工具，近年来，它正朝着专业性越来越强，成本越来越低的方向发展。

数据仓库专用设备，使得大多数中小企业不必花高价购买Oracle、IBM等公司的专业设备。

Yahoo的开源小组开发出Hadoop，就是一种基于MapReduce技术的并行计算框架。

在2008年之前，Facebook就在Hadoop基础上开发出类似数据仓库的Hive，用来分析点击流和日志文件。

几年下来，基于Hadoop的整套数据仓库解决方案已日臻成熟。

该方案在国内有普遍的应用，例如淘宝的数据魔方。

还有其他一些技术能够提高数据的访问性能，例如数据温度技术，经常被访问的数据就是高温数据，这类数据可以存储在高速存储区，反之，访问频率小的数据放在低速存储区。

存储访问技术也在日益更新，比如Teradata前几年推出固态硬盘数据仓库，用接近闪存的性能访问数据，比原来在磁盘上顺序读取数据快很多。

总之，随着数据爆炸般的增长，大数据存储及管理技术将会是大数据平台一直需要钻研和更新的一项重要技术。

五、大数据挖掘

5.1概述

数据挖掘就是从大量的数据中通过算法搜索隐藏于其中的信息的过程。

因此使用什么算法就显得尤为重要，国际权威的学术组织theIEEEInternationalConferenceonDataMining（ICDM）2006年12月评选出了数据挖掘领域的十大经典算法，当然，不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种可以称得上经典算法，它们在数据挖掘领域都产生了极为深远的影响。

5.2Apriori算法

5.2.1关联规则挖掘

由于数据挖掘领域的主题和方向很多，这里就着重讲关联规则的Apriori算法。

所谓关联规则挖掘就是从事务数据库、关系数据库或数据仓库等海量数据的项集之间发现有价值的频繁出现的模式关联和相关性，通过预先设定的支持度和可信度，通过特定的数据挖掘算法获得支持度和可信度均较高的关联规则，得到用户感兴趣、有价值的关联规则并应用到实际工作中，真正实现从数据到信息、再到知识的迁移过程。

关联规则数据挖掘的过程大体为两步，第一步是从全部项集中寻找出所有频繁项集；

第二部是由频繁项集获取关联规则。

由于第二步较为容易和直观，所以第一步是核心步骤，其中最经典的算法就数Apriori算法。

Apriori算法是关联规则里的一项基本算法。

是由RakeshAgrawal和RamakrishnanSrikant两位博士在1994年提出的。

关联规则的目的就是在一个数据集里找出项与项之间的关系，也被称为“购物篮分析（MarketBasketanalysis）”。

关于这个算法有一个非常有名的故事：

“啤酒和尿布”。

故事是这样的：

美国的妇女们经常会嘱咐她们的丈夫下班后给孩子们买尿布，而丈夫买完尿布后会顺带买自己爱喝的啤酒，因此把啤酒和尿布放在一起大大增加了两者的销量。

5.2.2Apriori算法概念

要理解Apriori算法，首先要理解几个概念和定义。

支持度：

定义为supp（x）=occur（x）/count（D），解释：

在100个人去超市买东西里面，有9个人买了苹果，那么苹果的支持度就是9，9/100。

（关联规则中有绝对支持度和相对支持度）

置信度：

定义为conf（x->

y）=supp（xandy）/supp（x），解释：

在历史数据中，已经买了某某（例如A和B）的支持度和经过挖掘的某规则（例如A=>

B）中A的支持度的比例。

也就是说买了A和B的人和已经买了A的人的比例，这就是A推荐B的置信度。

候选集：

通过向下合并的项集。

频繁集：

支持度大于设定的最小支持度的项集。

剪枝：

只有当子集都是频繁集的候选集才是频繁集，这个过程就是剪枝。

提升度（Lift）：

lift（X->

Y）=lift（Y->

X）=conf（X->

Y）/supp（Y）=conf（Y->

X）/supp（X）=P（XandY）/（P（X）P（Y））经过关联规则分析后，针对某些人推销（根据某规则）比盲目推销（一般来说是整个数据）的比率，这个比率越高越好，我们称这个规则为强规则。

5.2.3Apriori算法过程

下面就拿具体的事件来说明Apriori算法的过程：

首先我们来看，什么是规则？

规则形如"

如果…那么…（If…Then…）"

前者为条件，后者为结果。

例如一个顾客，如果买了可乐，那么他也会购买果汁。

如何来度量一个规则是否够好？

有两个量，置信度（Confidence）和支持度（Support）。

假设有如下表的购买记录。

顾客

项目

orangejuice,coke

milk,orangejuice,windowcleaner

orangejuice,detergent

orangejuice,detergent,coke

windowcleaner

将上表整理一下，得到如下的一个2维表：

Orange

WinCl

Milk

Coke

Detergent

WinCl

上表中横栏和纵栏的数字表示同时购买这两种商品的交易条数。

如购买有Orange的交易数为4，而同时购买Orange和Coke的交易数为2。

置信度表示了这条规则有多大程度上值得可信。

设条件的项的集合为A,结果的集合为B。

置信度计算在A中，同时也含有B的概率。

即Confidence（A==>

B）=P（B|A）。

例如计算"

如果Orange则Coke"

的置信度。

由于在含有Orange的4条交易中，仅有2条交易含有Coke.其置信度为0.5。

支持度计算在所有的交易集中，既有A又有B的概率。

例如在5条记录中，既有Orange又有Coke的记录有2条。

则此条规则的支持度为2/5=0.4。

现在这条规则可表述为，如果一个顾客购买了Orange,则有50%的可能购买Coke。

而这样的情况（即买了Orange会再买Coke）会有40%的可能发生。

再来考虑下述情况。

项

支持度

0.45

0.42

0.4

AandB

0.25

AandC

0.2

BandC

0.15

A,B，andC

0.05

可得到下述规则

规则

置信度

IfBandCthenA

0.05/0.15*100%=33.33%

IfAandCthenB

0.05/0.20*100%=25%

IfAandBthenC

0.05/0.25*100%=20%

上述的三条规则，哪一条规则有用呢？

对于规则"

IfBandCthenA"

，同时购买B和C的人中，有33.33%会购买A。

而单项A的支持度有0.45，也就是说在所有交易中，会有45%的人购买A.看来使用这条规则来进行推荐，还不如不推荐，随机对顾客进荐好了。

为此引入另外一个量，即提升度（Lift），以度量此规则是否可用。

描述的是相对于不用规则，使用规则可以提高多少。

有用的规则的提升度大于1。

计算方式为Lift（A==>

B）=Confidence（A==>

B）/Support（B）=Support（A==>

B）/（Support（A）*Support（B））。

在上例中，Lift（IfBandCTheA）=0.05/（0.15*0.45）=0.74。

而Lift（IfAthenB）=0.25/（0.45*0.42）=1.32。

也就是说对买了A的人进行推荐B,购买概率是随机推荐B的1.32倍。

如何产生规则呢。

Apriori算法可以分两步走

首先找出频繁集（frequentitemset）。

所谓频繁集指满足最小支持度或置信度的集合。

其次从频繁集中找出强规则（strongrules）。

强规则指既满足最小支持度又满足最小置信度的规则。

如何产生频繁集？

这其中有一个定理。

即频繁集的子集也一定是频繁集。

比如，如果{A,B,C}是一个3项的频繁集，则其子集{A,B},{B,C},{A,C}也一定是2项的频繁集。

为方便，可以把含有k项的集合称之为k-itemsets。

下面以迭代的方式找出频繁集。

首先找出1-itemsets的频繁集，然后使用这个1-itemsets，进行组合，找出2-itemsets的频繁集。

如此下去，直到不再满足最小支持度或置信度的条件为止。

这其中重要的两步骤分别是连接（join）和剪枝（prune）.即从（k-1）-itemsets中的项进行组合，产生候选集（Candidateitemsets）。

再从候选集中，将不符合最小支持度或置信度的项删去。

例如

Frequent2-itemsets

Candidate3-itemsets

Frqquent3-itemsets

I1,I2

==>

I1,I2,I4

I1,I4

I2,I3,I4

I2,I3

I2,I4

六、大数据带来的机遇和挑战

大数据瓦解了传统信息体系架构，将数据仓库转化为具有流动连接和信息共享的数据池大数据技术使人们可以利用以前不能有效利用的多种数据类型，抓住被忽略的机遇，使企业组织更加智能和高效。

大数据技术也将推动新兴信息安全技术与产品的形成。

6.1大数据带来的机遇

（1）大数据的挖掘和应用成为核心，将从多个方面创造价值

大数据的重心将从存储和传输，过渡到数据的挖掘和应用，这将深刻影响企业的商业模式据麦肯锡测算，大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别节省3000亿美元和1000亿欧元，利用个人位置信息潜在可创造出6000亿美元价值，因此大数据应用具有远超万亿美元的大市场

（2）大数据利用中安全更加重要，为信息安全带来发展契机

随着移动互联网物联网等新兴IT技术逐渐步入主流，大数据使得数据价值极大提高，无处不在的数据，对信息安全提出了更高要求。

同时，大数据领域出现的许多新兴技术与产品将为安全分析提供新的可能性;

信息安全和云计算贯穿于大数据产业链的各个环节，云安全等关键技术将更安全地保护数据。

大数据对信息安全的要求和促进将推动信息安全产业的大发

展。

（3）大数据时代来临，使商业智能信息安全和云计算具有更大潜力

大数据产业链按产品形态分为硬件、基础软件和应用软件三大领域，商业智能、信息安全和云计算主题横跨三大领域，将构成产业链中快速发展的三驾马车。

就国内而言，商业智能市场已步入成长期，预计未来年复合年均增长率（CAGR）为35%，十二五期间潜在产值将超300亿元;

信息安全预计未来年有望保持35%~40%的快速增长，十二五期间潜在产值将超4000亿元;

云计算刚进入成长期，预计未来5年CAGR将超50%，年产业规模预计将达1万亿元。

6.2大数据带来的挑战

大数据在带来机遇的同时，也在人才、技术、信息安全等方面带来了很大的挑战。

（1）大数据需要专业化的技术和管理人才

大数据解决方案的设计和实施，需要专业化分析复杂数据集的工具和技术，包括统计学机器学习自然语言处理和建模，以及可视化技术，例如标签云集群历史流动画和信息图表等。

大数据时代，企业组织需要大量既精通业务又能进行大数据分析的人才，美国目前面临14万至19万分析和管理人才，以及150万具备理解和基于大数据研究做出决策的经理和分析师人才的缺口，我国目前IT人员本身配备不足的现状与大数据需要IT人员增加的矛盾更加突出，大数据对我国人才的培养模式以及现有人才的储备提出了严峻的挑战。

（2）大数据的有效应用需要解决大容量、多类别和高时效数据处理的问题。

传统数据库的管理能力无法应付大数据体量的数据。

传统数据库处理不了数TB级别的数据，也不能很好支持高级别的数据分析，大数据急速膨胀的数据体量已经超越了传统数据库的管理能力。

大数据中不同格式的数据需要复杂的处理方法。

大数据包括了越来越多的数据格式，囊括了半结构化和非结构化数据，非结构化数据的多样性和海量性，决定了大数据技术的复杂性，这些数据的处理超出了目前常规数据软件工具所能承受的极限。

大数据处理需要满足极高的时效性。

在当今快速变化的社会经济形势面前，把握数据的时效性，是立于不败之地的关键。

数据量大意味着计算开销大，数据多

展开阅读全文