大数据处理技术研究.docx

资源描述

大数据处理技术研究.docx

《大数据处理技术研究.docx》由会员分享，可在线阅读，更多相关《大数据处理技术研究.docx（17页珍藏版）》请在冰豆网上搜索。

大数据处理技术研究.docx

大数据处理技术研究

郑州轻工业学院

课程设计说明书

题目：

大数据处理技术研究

姓名：

王超田启森

院〔系〕：

计算机与通信工程

专业班级：

计算机科学与技术

学号：

541007010138

541007010137

指导教师：

钱慎一

成绩：

时间：

2021年6月26日至2021年6月27日

1.摘要：

大数据浪潮汹涌来袭，与互联网的创造一样，这绝不仅仅是信息技术领域的革命，更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。

2.大数据概况;

大数据，IT行业的又一次技术变革，大数据的浪潮汹涌而至，对国家治理、企业决策和个人生活都在产生深远的影响，并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。

未来的十年将是一个“大数据〞引领的智慧科技的时代、随着社交网络的逐渐成熟，移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络，由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。

数据技术开展历史如图一所示：

图一

3.大数据定义：

“大数据〞是一个涵盖多种技术的概念，简单地说，是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

IBM将“大数据〞理念定义为4个V，即大量化（Volume）、多样化（Variety）、快速化（Velocity）及由此产生的价值（Value）。

如图二;

图二

4.大数据技术的开展：

大数据技术描述了一种新一代技术和构架，用于以很经济的方式、以高速的捕获、发现和分析技术，从各种超大规模的数据中提取价值，而且未来急剧增长的数据迫切需要寻求新的处理技术手段。

如图三所示：

图三

在“大数据〞（Bigdata）时代，通过互联网、社交网络、物联网，人们能够及时全面地获得大信息。

同时，信息自身存在形式的变化与演进，也使得作为信息载体的数据以远超人们想象的速度迅速膨胀。

云时代的到来使得数据创造的主体由企业逐渐转向个体，而个体所产生的绝大局部数据为图片、文档、视频等非结构化数据。

信息化技术的普及使得企业更多的办公流程通过网络得以实现，由此产生的数据也以非结构化数据为主。

预计到2021年，非结构化数据将到达互联网整个数据量的75%以上。

用于提取智慧的“大数据〞，往往是这些非结构化数据。

传统的数据仓库系统、BI、链路挖掘等应用对数据处理的时间要求往往以小时或天为单位。

但“大数据〞应用突出强调数据处理的实时性。

在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。

全球技术研究和咨询公司Gartner将“大数据〞技术列入2021年对众多公司和组织机构具有战略意义的十大技术与趋势之一，而其他领域的研究，如云计算、下一代分析、内存计算等也都与“大数据〞的研究相辅相成。

Gartner在其新兴技术成熟度曲线中将“大数据〞技术视为转型技术，这意味着“大数据〞技术将在未来3—5年内进入主流。

而“大数据〞的多样性决定了数据采集来源的复杂性，从智能传感器到社交网络数据，从声音图片到在线交易数据，可能性是无穷无尽的。

选择正确的数据来源并进行交叉分析可以为企业创造最显著的利益。

随着数据源的爆发式增长，数据的多样性成为“大数据〞应用亟待解决的问题。

例如如何实时地及通过各种数据库管理系统来平安地访问数据，如何通过优化存储策略，评估当前的数据存储技术并改良、加强数据存储能力，最大限度地利用现有的存储投资。

从某种意义上说，数据将成为企业的核心资产。

“大数据〞不仅是一场技术变革，更是一场商业模式变革。

在“大数据〞概念提出之前，尽管互联网为传统企业提供了一个新的销售渠道，但总体来看，二者平行开展，鲜有交集。

我们可以看到，无论是Google通过分析用户个人信息，根据用户偏好提供精准广告，还是Facebook将用户的线下社会关系迁移在线上，构造一个半真实的实名帝国，但这些商业和消费模式仍不能脱离互联网，传统企业仍无法嫁接到互联网中。

同时，传统企业通过传统的用户分析工具却很难获得大范围用户的真实需求。

企业从大规模制造过渡到大规模定制，必须掌握用户的需求特点。

在互联网时代，这些需求特征往往是在用户不经意的行为中透露出来的。

通过对信息进行关联、参照、聚类、分类等方法分析，才能得到答案。

“大数据〞在互联网与传统企业间建立一个交集。

它推动互联网企业融合进传统企业的供给链，并在传统企业种下互联网基因。

传统企业与互联网企业的结合，网民和消费者的融合，必将引发消费模式、制造模式、管理模式的巨大变革。

大数据正成为IT行业全新的制高点，各企业和组织纷纷助推大数据的开展，相关技术呈现百花齐放局面，并在互联网应用领域崭露头角，具体情况如下列图四所示：

图四

大数据将带来巨大的技术和商业机遇，大数据分析挖掘和利用将为企业带来巨大的商业价值，而随着应用数据规模急剧增加，传统计算面临严重挑战，大规模数据处理和行业应用需求日益增加和迫切出现越来越多的大规模数据处理应用需求，传统系统难以提供足够的存储和计算资源进行处理，云计算技术是最理想的解决方案。

调查显示：

目前，IT专业人员对云计算中诸多关键技术最为关心的是大规模数据并行处理技术大数据并行处理没有通用和现成的解决方案对于应用行业来说，云计算平台软件、虚拟化软件都不需要自己开发，但行业的大规模数据处理应用没有现成和通用的软件，需要针对特定的应用需求专门开发，涉及到诸多并行化算法、索引查询优化技术研究、以及系统的设计实现，这些都为大数据处理技术的开展提供了巨大的驱动力，

5.大数据技术组成：

大数据技术由四种技术构成，它们包括：

分析技术

分析技术意味着对海量数据进行分析以实时得出答案，由于大数据的特殊性，大数据分析技术还处于开展阶段，老技术会日趋完善，新技术会更多出现。

大数据分析技术涵盖了以下的的五个方面

可视化分析

数据可视化无论对于普通用户或是数据分析专家，都是最根本的功能。

数据图像化可以让数据自己说话，让用户直观的感受到结果。

5.1.2数据挖掘算法

　图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。

分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。

这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。

预测分析能力

数据挖掘可以让分析师对数据承载信息更快更好地消化理解，进而提升判断的准确性，而预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

语义引擎

非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。

语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

数据质量和数据管理

数据质量与管理是管理的最正确实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

我们知道大数据分析技术最初起源于互联网行业。

网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。

这些大数据中蕴藏着大量可以用于增强用户体验、提高效劳质量和开发新型应用的知识，而如何高效和准确的发现这些知识就根本决定了各大互联网公司在剧烈竞争环境中的位置。

首先，以Google为首的技术型互联网公司提出了MapReduce的技术框架，利用廉价的PC效劳器集群，大规模并发处理批量事务。

利用文件系统存放非结构化数据，加上完善的备份和容灾策略，这套经济实惠的大数据解决方案与之前昂贵的企业小型机集群+商业数据库方案相比，不仅没有丧失性能，而且还赢在了可扩展性上。

之前，我们在设计一个数据中心解决方案的前期，就要考虑到方案实施后的可扩展性。

通常的方法是预估今后一段时期内的业务量和数据量，参加多余的计算单元〔CPU〕和存储，以备不时只需。

这样的方式直接导致了前期一次性投资的巨大，并且即使这样也依然无法保证计算需求和存储超出设计量时的系统性能。

而一旦需要扩容，问题就会接踵而来。

首先是商业并行数据库通常需要各节点物理同构，也就是具有近似的计算和存储能力。

而随着硬件的更新，我们通常参加的新硬件都会强于已有的硬件。

这样，旧硬件就成为了系统的瓶颈。

为了保证系统性能，我们不得不把旧硬件逐步替换掉，经济本钱损失巨大。

其次，即使是当前最强的商业并行数据库，其所能管理的数据节点也只是在几十或上百这个数量级，这主要是由于架构上的设计问题，所以其可扩展性必然有限。

而MapReduce+GFS框架，不受上述问题的困扰。

需要扩容了，只需增加个机柜，参加适当的计算单元和存储，集群系统会自动分配和调度这些资源，丝毫不影响现有系统的运行

存储数据库

存储数据库（In-MemoryDatabases）让信息快速流通，大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。

比方说，它可以对某个全国性的连锁店某天的销售记录进行分析，得出某些特征进而根据某种规那么及时为消费者提供奖励回馈。

但传统的关系型数据库严格的设计定式、为保证强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。

随之而来，NoSQL数据存储模型开始风行。

NoSQL，也有人理解为NotOnlySQL，并不是一种特定的数据存储模型，它是一类非关系型数据库的统称。

其特点是：

没有固定的数据表模式、可以分布式和水平扩展。

NoSQL并不是单纯的反对关系型数据库，而是针对其缺点的一种补充和扩展。

典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等

　NoSQL数据库是一种建立在云平台的新型数据处理模式，NoSQL在很多情况下又叫做云数据库。

由于其处理数据的模式完全是分布于各种低本钱效劳器和存储磁盘，因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。

它为Zynga、AOL、Cisco以及其它一些企业提供网页应用支持。

正常的数据库需要将数据进行归类组织，类似于姓名和帐号这些数据需要进行结构化和标签化。

但是NoSQL数据库那么完全不关心这些，它能处理各种类型的文档。

在处理海量数据同时请求时，它也不会有任何问题。

比方说，如果有1000万人同时登录某个Zynga游戏，它会将这些数据分布于全世界的效劳器并通过它们来进行数据处理，结果与1万人同时在线没什么两样。

现今有多种不同类型的NoSQL模式。

商业化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;开源免费的模式如CouchDB和Cassandra;还有亚马逊最新推出的NoSQL云效劳。

分布式计算技术

分布式计算结合了NoSQL与实时分析技术，如果想要同时处理实时分析与NoSQL数据功能，那么你就需要分布式计算技术。

分布式技术结合了一系列技术，可以对海量数据进行实时分析。

更重要的是，它所使用的硬件非常廉价，因而让这种技术的普及变成可能。

SGI的SunnySundstrom解释说，通过对那些看起来没什么关联和组织的数据进行分析，我们可以获得很多有价值的结果。

比方说可以分发现一些新的模式或者新的行为。

运用分布式计算技术，银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。

分布式计算技术让不可能变成可能，分布式计算技术正引领着将不可能变为可能。

SkyboxImaging就是一个很好的例子。

这家公司通过对卫星图片的分析得出一些实时结果，比方说某个城市有多少可用停车空间，或者某个港口目前有多少船只。

它们将这些实时结果卖给需要的客户。

没有这个技术，要想快速廉价的分析这么大量卫星图片数据将是不可能的。

如图五所示：

图五

分布式计算技术是Google的核心，也是Yahoo的根底，目前分布式计算技术是基于Google创立的技术，但是却最新由Yahoo所建立。

Google总共发表了两篇论文，2004年发表的叫做MapReduce的论文介绍了如何在多计算机之间进行数据处理;另一篇于2003年发表，主要是关于如何在多效劳器上存储数据。

来自于Yahoo的工程师DougCutting在读了这两篇论文后建立了分布式计算平台，以他儿子的玩具大象命名。

如图六所示

图六

而Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为

6.Hadoop--大数据处理的核心技术

大数据技术涵盖了硬软件多个方面的技术，目前各种技术根本都独立存在于存储、开发、平台架构、数据分析挖掘的各个相对独立的领域。

这一局部主要介绍和分析大数据处理的核心技术——Hadoop。

Hadoop的组成

大数据不同于传统类型的数据，它可能由TB甚至PB级信息组成，既包括结构化数据，也包括文本、多媒体等非结构化数据。

这些数据类型缺乏一致性，使得标准存储技术无法对大数据进行有效存储，而且我们也难以使用传统的效劳器和SAN方法来有效地存储和处理庞大的数据量。

这些都决定了“大数据〞需要不同的处理方法，而Hadoop目前正是广泛应用的大数据处理技术。

Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。

该框架在很大程度上受Google在2004年白皮书中阐述的MapReduce的技术启发。

Hadoop主要组件包含如图七：

图七

HadoopCommon：

通用模块，

支持其他Hadoop模块

HadoopDistributedFileSystem〔HDFS〕：

分布式文件系统，用以提供高流量的应用数据访问

HadoopYARN：

支持工作调度和集群资源管理的框架

HadoopMapReduce：

针对大数据的、灵活的并行数据处理框架

其他相关的模块还有：

ZooKeeper：

高可靠性分布式协调系统

Oozie：

负责MapReduce作业调度

HBase：

可扩展的分布式数据库，可以将结构性数据存储为大表

Hive：

构建在MapRudece之上的数据仓库软件包

Pig：

架构在Hadoop之上的高级数据处理层

在Hadoop框架中，最底层的HDFS存储Hadoop集群中所有存储节点上的文件。

HDFS的架构是基于一组特定的节点构建的〔如图八〕，

图八

这些节点包括一个NameNode和大量的DataNode。

存储在HDFS中的文件被分成块，然后将这些块复制到多个计算机中〔DataNode〕。

这与传统的RAID架构大不相同。

块的大小〔通常为64MB〕和复制的块数量在创立文件时由客户机决定。

NameNode可以控制所有文件操作。

HDFS内部的所有通信都基于标准的TCP/IP协议。

NameNode在HDFS内部提供元数据效劳，负责管理文件系统名称空间和控制外部客户机的访问。

它决定是否将文件映射到DataNode上的复制块上。

DataNode通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。

HadoopMapReduce是GoogleMapReduce的开源实现。

MapReduce技术是一种简洁的并行计算模型，它在系统层面解决了扩展性、容错性等问题，通过接受用户编写的Map函数和Reduce函数，自动地在可伸缩的大规模集群上并行执行，从而可以处理和分析大规模的数据[6]。

Hadoop提供了大量的接口和抽象类，从而为Hadoop应用程序开发人员提供许多工具，可用于调试和性能度量等。

在Hadoop应用实例中，一个代表客户机在单个主系统上启动MapReduce的应用程序称为JobTracker。

类似于NameNode，它是Hadoop集群中唯一负责控制MapReduce应用程序的系统。

在应用程序提交之后，将提供包含在HDFS中的输入和输出目录。

JobTracker使用文件块信息〔物理量和位置〕确定如何创立其他TaskTracker附属任务。

MapReduce应用程序被复制到每个出现输入文件块的节点，将为特定节点上的每个文件块创立一个唯一的附属任务。

每个TaskTracker将状态和完成信息报告给JobTracker。

如图显示一个例如集群中的工作分布，如图九:

图九

6.2Hadoop的优点：

Hadoop能够使用户轻松开发和运行处理大数据的应用程序。

它主要有以下几个优点：

高可靠性。

Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。

Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

高效性。

Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

高容错性。

Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop带有用Java语言编写的框架，因此运行在Linux生产平台上是非常理想的。

Hadoop上的应用程序也可以使用其他语言编写，比方C++。

6.3Hadoop的缺乏

Hadoop作为一个处理大数据的软件框架，虽然受到众多商业公司的青睐，但是其自身的技术特点也决定了它不能完全解决大数据问题。

在当前Hadoop的设计中，所有的metadata操作都要通过集中式的NameNode来进行，NameNode有可能是性能的瓶颈。

当前Hadoop单一NameNode、单一Jobtracker的设计严重制约了整个Hadoop可扩展性和可靠性。

首先，NameNode和JobTracker是整个系统中明显的单点故障源。

再次，单一NameNode的内存容量有限，使得Hadoop集群的节点数量被限制到2000个左右，能支持的文件系统大小被限制在10-50PB，最多能支持的文件数量大约为1.5亿左右。

实际上，有用户抱怨其集群的NameNode重启需要数小时，这大大降低了系统的可用性。

随着Hadoop被广泛使用，面对各式各样的需求，人们期望Hadoop能提供更多特性，比方完全可读写的文件系统、Snapshot、Mirror等等。

这些都是当前版本的Hadoop不支持，但是用户又有强烈需求的。

主要商业性“大数据〞处理方案

“大数据〞被科技企业看作是云计算之后的另一个巨大商机，包括IBM、谷歌、亚马逊和微软在内的一大批知名企业纷纷掘金这一市场。

此外，很多初创企业也开始参加到大数据的淘金队伍中。

Hadoop是非结构数据库的代表，低本钱、高扩展性和灵活性等优势使其成为各种面向大数据处理分析的商业效劳方案的首选。

Oracle、IBM、Microsoft三大商业数据提供商是Hadoop的主要支持者。

很多知名企业都以Hadoop技术为根底提供自己的商业性大数据解决方案。

这一局部主要介绍以Hadoop为根底的典型商业性大数据解决方案。

IBMInfoSphere大数据分析平台

IBM于2011年5月推出的InfoSphere大数据分析平台是一款定位为企业级的大数据分析产品。

该产品包括BigInsights和Streams，二者互补，Biglnsights基于Hadoop，对大规模的静态数据进行分析，它提供多节点的分布式计算，可以随时增加节点，提升数据处理能力。

Streams采用内存计算方式分析实时数据。

它们将包括HadoopMapReduce在内的开源技术紧密地与IBM系统集成起来。

研究Hadoop这样开源技术的人很多，但是IBM这次是真正将其变成了企业级的应用，针对不同的人员增加不同的价值。

的存储和运算框架采用了开源的HadoopMapReduce，同时针对Hadoop框架进行了改造，采用了IBM特有的通用并行文件系统——GPFS。

利用GPFS的目的是为了防止单点故障，保证可用性。

BigInsights中还有两个分析产品——Cognos和SPSS，这两个分析产品在传统功能上加强了文本分析的功能，提供了一系列文本分析工具，并使用高级语言进行自定义规那么，如文本格式转换等。

目前BigInsights提供两种版本，一种是企业版〔EnterpriseEdition〕，用于企业级的大数据分析解决方案。

另一种是根底版〔BasicEdition〕，去掉了企业版中的大局部功能，用户可以免费下载，主要提供给开发人员和合作伙伴试用。

Streams最大的特点就是内存分析，利用多节点PC效劳器的内存来处理大批量的数据分析请求。

Streams的特点就是“小快灵〞，数据是实时流动的，其分析反响速度可以控制在毫秒级别，而BigInsights的分析是批处理，反响速度无法同Streams相比。

总体来说，二者的设计架构不同，也用于处理不同的大数据分析需求，并可以形成良好的互补。

InfoSphere平台仅仅是IBM大数据解决方案中的一局部。

IBM大数据平台包括4大局部：

信息整合与治理组件、基于开源ApacheHadoop的框架而实现的BigInsights平台、加速器，以及包含可视化与发现、应用程序开发、系统管理的上层应用。

通过IBM的解决方案可以看出，解决大数据问题不能仅仅依靠Hadoop。

OracleBigDataApplianc

OracleBigDataAppliance准确地说是一款硬件产品，添加了Hadoop装载器、应用适配器以及Oracle新的NoSQL数据库，主要目的是为了将非结构化数据加载到关系型数据库中去，并对软硬件的集成做了一些优化。

OracleBigData机包括开源ApacheHadoop、OracleNoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHadoop装载器、OpenSourceDistributionofR、OracleLinux和OracleJavaHotSpot虚拟机。

它能够快速、便捷地与Oracle数据库11g、OracleExadata数据库云效劳器和OracleExalytics商务智能云效劳器集成。

分析师和统计人员可以运行现有的R应用，并利用R客户端直接处理存储在Oracle数据库11g中的数据，从而极大地提高可扩展性、性能和平安性。

MicrosoftSQLServer

微软已经发布HadoopConnectorforSQLServerParallelDataWarehouse和HadoopConnectorforSQLServer社区技术预览版本的连接器。

该连接器是双向的，用户可以在Hadoop和微软数据库效劳器之间向前或者向后迁移数据。

微软的SQLServer2021将并入Hadoop分布式计算平台，微软还将把Hadoop引入WindowsServer和Azure〔微软的云效劳〕。

6.4.4SybaseIQ

SybaseIQ是Sybase公司推出的特别为数据仓库设计的关系型数据库，添加了Hadoop的集成，并提供了MapReduce的API。

相比于传统的“行式存储〞的关系型数据库，SybaseIQ使用了独特的列式存储方式，在进行分析查询时，仅需读取查询所需的列，其垂直分区策略不仅能够支持大量的用户、大规模数据，还可以提交对商业信息的高速访问，其速度可到达传统的关系型数据库的百倍甚至千倍。

其他“大数据〞解决方案

“大数据〞解决方案并非只有Hadoop一种，许多知名企业还提供了其他的解决方案。

EMC

EMC提供了两种大数据存储方案，即Isilon和Atmos。

Isilon能够提供无限的横向扩展能力，Atmos是一款云存储根底架构，在内容效劳方面，Atmos是很好的解决方案。

在数据分析方面，EMC提供的解决方案、提供的产品是Greenplum，Greenplum有两个产品，第一是GreenplumDatabase，GreenplumDatabase是大规模的并行成立的数据库，它可以管理、存储、分析PB量级的一些结构性数据，它下载的速度非常高，最

展开阅读全文