大数据和大数据技术分析.docx

上传人:b****7 文档编号:9169357 上传时间:2023-02-03 格式:DOCX 页数:8 大小:21.24KB
下载 相关 举报
大数据和大数据技术分析.docx_第1页
第1页 / 共8页
大数据和大数据技术分析.docx_第2页
第2页 / 共8页
大数据和大数据技术分析.docx_第3页
第3页 / 共8页
大数据和大数据技术分析.docx_第4页
第4页 / 共8页
大数据和大数据技术分析.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

大数据和大数据技术分析.docx

《大数据和大数据技术分析.docx》由会员分享,可在线阅读,更多相关《大数据和大数据技术分析.docx(8页珍藏版)》请在冰豆网上搜索。

大数据和大数据技术分析.docx

大数据和大数据技术分析

大数据和大数据技术分析

本篇论文快速导航:

题目:

大数据处理下新型管理模式探究第一章:

基于大数据处理的管理模式创新研究绪论第二章:

大数据和大数据技术分析第三章:

大数据带来的管理变革和挑战第四章:

基于大数据处理的管理模型第五章:

基于大数据处理的管理模式下信息处理框架设计总结/参考文献:

大数据与新型管理模式的结合总结与参考文献

第2章大数据和大数据技术分析

由于信息技术和网络的飞速发展,我们身边所有有的事物都开始与数据有关。

打电话、发短信、网络购物、网络办公……我们的生活和工作实实在在被大量的数据影响着,数据开始成为了重要的资源,大数据就这样被提出。

如何真确理解大数据,如何解决大数据问题,是我们将要分析的。

2.1大数据简介

1)大数据的定义

对于大数据的定义,到目前为止仍就没有统一的标准,常用的定义有以下几点:

XX百科的定义:

大数据又称为巨量资料,它们无法在有效时间内通过传统手段或主流工具使数据得到采集,也无法进行处理和管理,进而得出有效信息帮助企业进行经营决策[4].

维基百科的定义:

大数据指那些数量过于巨大,因而无法通过人工等手段,在一定时间内将其截取、处理、管理并整理成简单且易于人们理解的信息的数据。

因此,大数据也可称为巨量数据或海量数据[5].

权威研究机构Gartner的定义:

大数据是是一种新的信息资产,其主要特点是高增长率和海量。

大数据的主要目的是为了使企业在全新处理模式下的决策能力和洞察发现能力的加强和流程的优化。

对于大数据问题,是不限于一个维度上,远远高出传统信息技术处理数据能力的极端信息管理和信息处理问题[6].

互联网周刊的定义为:

通常所指的大数据就是指大量的数据(TB级或更大)及处理大量数据的相关技术,其特点可以用通用的“4V”来概括。

然而,真正的大数据远远不止这些,它涵盖了所有在小数据基础上无法解决的事情,也就是说,我们所说的大数据,是一种以新的方式方法,对海量数据进行采集分析,从而获取数据中的价值,提供服务,是一种前所未有的,给社会带来巨大变革的方式。

[7]麦肯锡的定义:

大数据是一个数据集合,其集合中的数据无法通过传统的数据处理工具在有效时间内得到采集、存储和管理等处理[7].

无论从哪一种定义上来看,大数据都并非一种全新的技术或者一种全新的产品,大数据只是信息数字化时代高速发展所面临的一些问题的概括,一种普遍面临的现象而已,这一点和本世纪之初就早已出现的&dquo;海量数据”有某些相同之处。

那么海量数据与大数据的有什么区别呢?

大数据除了包括海量数据中的结构化和半结构化数据之外还包括非结构化和交互数据。

从上世纪60年代至80年代中期,随着信息技术的进步。

数据处理的方式也在不断演进。

由最开始的应用程序直接管理数据的文件存储方式到具有面向性、集成性、飞易失性、时变性等特点的数据库存储方式,然后伴随着Web2.0的兴起,人们开始广泛应用基于Web2.0的非关系型数据库等数据存储技术。

到目前,由于社交网络的快速发展和移动终端的普及,数据关系到人们生活的方方面面,数据量呈指数形态爆发式增长,面对这样海量的且纷繁复杂的数据,传统的数据处理方式已经逐渐无法适应,对于如何去发现数据中所存在的价值和了解数据之间存在的规则和关系,以往的方法都都无法很好

解决。

然而大数据技术很好的解决了这个难题。

故而我们认为,所谓大数据,就是一种利用分布式计算构架,依托云计算的分布式处理、分布式数据库、云存储和虚拟化等相关技术,通过数据挖掘与分析,从大量化、多类别的数据中提取价值的IT领域的一种新的技术构架。

2)大数据的基本特征

大数据的特点可以概括为4V+1C即数量(Volume)、速度

(Velocity)和种类(Variety)、价值性(Value)、复杂complexity)[5].

Volume指的是数据巨大的数据量以及其规模的完整性。

大数据聚合在一起的数据量是十分庞大的,根据IDC的定义至少要有超过100T的可供分析的数据,更多的也认为大数据至少应到达PB的规模。

大的数据量,是大数据的基本属性。

Velocity所指的有两个层面,其一是数据的获取速度快,其二是在数据量庞大的情况下,数据的分析和处理速度的快速,即数据的实时分析。

Variety指数据的类别繁多,由于数据来源的多样化,数据的种类和格式也日渐丰富,除了结构化数据,非结构化和半结构数据大量存在,例如地理位置信息、视频信息、图片信息等。

Value可以从两个方面来讲,即数据的低价值密度和高价值性。

就是通过整合分析大量数据才能得出有重要实际应用价值的信息。

由于大数据“4V”特性的存在,使得针对大数据的处理和分析变得更加困难,传统的关系型数据库系统已经无法处理,需要根据不同的业务场景和业务需要,使用不同的分析处理方法,这样一来,其复杂度便大大增加了。

2.2大数据处理技术

2.2.1海量数据的存储

正如前面所描述的,大数据时代的首要特点就是海量的数据,由于互联网的发展,不同应用特性的用户规模、数据存储规模也不尽相同,大数据时代的互联网应用的中海量数据我们可以归纳出以下特性:

(1)用户群体大,增长速度快。

eBay的页面点击率在过去10年之内的平均增长率达到了日均10亿次,虽然页面的点击次数并不能

同客户人数划等号,但是页面点击率同增长率也可以从一定程度上反应用户的增长规模[6].

(2)数据总量大,增长速度快。

这其中包括静态数据处理的图

片和视频共享,大量信息互动服务的SNS数据的存储总量已达到TB级别甚至PB级别。

随着互联网技术的迅速发展,使得这些数据量变得越来越大[6].

(3)数据类型多样化。

面对Web2.0时代,我们需要处理的不仅有大量用户分享的数据(图片、视屏、日志等),同时还需要处理大量交互型数据(邮件、消息、点击事件等)。

这些数据大小不一,数据类型更是多种多样。

这对于海量数据存储、管理提出了严峻的考验[6].

基于以上特性,对于海量数据的处理和存储就有了许多的挑战,概括如下:

(1)为了满足海量的数据需求,数据存储系统将会更大,往往达到TB或者PB级别。

(2)系统的良好扩展性能,能够使系统在正常运行的情况下能

够适应不断增长和变换的用户群体及数据。

(3)存储系统的吞吐量高且具有低延时性。

(4)面对结构化、半结构化、非结构化等数据、都有相应的存储类型。

(5)对于分布式环境下的数据分布和容错等问题使用并行编程模型灵活处理,使海量数据处理简单化。

面对着大规模的数据分析需求,由于数据访问速度越来越快等因素,面向结构化的传统数据存储方式已经无法适应。

最常见的三种解决数据存储的方式是直连式存储(DAS、连接式存储(NAS、存储式网络(SAN[7],但是面对越来越多、越来越复杂的数据,这三种方式就有了各自明显的缺陷。

低扩展性和低性能是直连式存储的主要缺陷。

链接式存储在成本上虽然较低,使用也比较便捷,然而其存储性能很低。

存储式网络的构建成本较高,虽然能提高数据的传输效率,然而由于其封闭式的构架使得其很难与其他系统整合。

于是我们在此提出一种基于云计算的海量数据存储模型(如图3.1、,我们应用实现了MapReduce计算模式的开源分布式并行框架Hadoop[8],从而实现海量数据的存储。

用户的应用请求的接受和应答在主服务控制集群中进行,此处主

要起到控制的作用。

产生的数据经过数据流存储到由海量数据存储能力集群系统或者磁盘阵列组成的数据存储节点集群。

主服务控制集群和存储节点集群之间通过HDFS和Hbase来实现,它们能够将数据库部署到各个节点之上。

通过Hadoop构架,用户可以在给主服务控制集群传递信息后,直接通过存储节点进行数据的读取和操作,这样就避免了由于大量的数据读取操作造成的系统拥塞。

用户的存储数据信息通过主服务控制集群传递到Hadoop构架,数据通过MapReduce中的Map函数被进行切割计算[9],从而分割成若干数据块,数据块通过HDFS和Hbase分配到各个存储节点之中,之后在将存储节点地址和数据块信息返回给主服务控制集群,用户在通过主服务控制集群获得这些信息。

通过这一过程,用户从而完成数据的存储操作。

在某一节点失效时,会立刻将正在处理的数据块进行重新分配[10].用户提取数据的时候,主服务控制集群接收到用户的提取数据信息,HDFS和Hbase查

找到相关数据块信息并将其传送给主服务控制集群,在接收到反馈信息之后,主服务控制集群在将其传回给用户。

用户接收到信息之后,根据信息创建每个节点的下载线程,将文件块下载到本地计算机中然后利用MapReduce的Reduce函数将其整合成一个完整的信息文件之后除文件块[11].

当Hadoop发现某个节点失效时,立即将正在取出的文件交由另一空闲的节点来重新进行下载,从而保证下载顺利完成。

通过利用分布式文件系统、分布式数据库、Hadoop框架和云计算的核心MapReduce技术,从而实现数据的并行计算和分布式存储,使得存储模块能够更好的适用于海量数据的存储。

2.2.2数据安全和隐私保护

大数据时代最显着的一个问题便是面对越发开放的网络环境,那么要如何保证数据的安全性,如何使隐私得到最大的保护。

上面我已经解释了云计算是解决大数据下新型管理模式的方法,那么在此,我们就探讨基于云计算的的数据安全防护。

由于数据和应用都存储和运营在远端的云计算中心这一有异于传统的数据中心存储这一模式的特性,以至有人觉得云计算对于数据安全完全是一场恶梦,然而相对于传统的安全系统的高成本、高复杂度而言,云计算通过云系统统一提供服务,大大简化了管理的复杂度,从而降低了缺陷和漏洞存在的几率,云计算在构架上的同质化使得安全方面的审计、评估和测试更加简单和方便。

由大型云供应商提供的的云计算服务在服务质量方面的保证也更加确立了其安全性;多数据中心的存在也保证了服务稳定地运行。

云计算安全构架主要包括3大部分(如图3.2):

云客户端、云端和第三方机构。

云客户端通过访问云端来得到服务,第三方机构对云端的安全机制进行审核,并进行监控[12].

为了使云客户端在病毒、木马和间谍软件等侵害的时候能够得到保护,防火墙、打补丁和安装杀毒软件等手段被我们使用在此处。

除此之外,为了实现云模式下的安全监测和防护,我们还充分利用了云端的超强计算能力。

面对可疑的数据流量,任何一个客户端都可以在第一时间将其送到后台的云检测中心进行安全解析,如果发现安全威胁,则快速将解析的结果推送到全部的安全网关和客户端,这样一来,整个云中的客户端和安全网关就能够检测到这种未知的威胁从而到达防护的作用。

为了使云客户端在病毒、木马和间谍软件等侵害的时候能够得到保护,防火墙、打补丁和安装杀毒软件等手段被我们使用在此处。

除此之外,为了1面对可疑的数据流量,任何一个客户端都可以在第一时间将其送到后台的云检测中心进行安全解析,如果发现安全威胁,则快速将解析的结果推送到全部的安全网关和客户端,这样一来,整个云中的客户端和安全网关就能够检测到这种未知的威胁从而到达防护的作用。

云端的安全构架最顶层是整体监管和合规性模块,它主要用于观测整个云计算体系的安全状况,使管理人员对于整个云计算中心能够实施有效的监管,避免恶性事件的发生,从而保护整个系统的安全。

通过对于云端构架的整体设计和一些相关流程的审计与合规性的定义,使整个体系所必须遵从一定的协议,以提高在整个云构架的可信度。

安全通信模块通过使用安全套接层(SSL和传输层安全(TLS等安全技术使云端和云客户端之间通信的完整性和私密性。

它具有强大的防火墙功能和巨大的网络处理能力[12].

系统的数据访问权限授予由用户管理模块负责,用户通过其获得数据访问权限,同时非授权的非法访问在此得到阻止。

用户只能根据被授予的权限进行数据的访问操作,在确保用户基本访问权限的同时,对于用户的访问行为进行记录进而检测,从而发现用户的越权行为。

通过集中的账号管理机制,认证管理的过程得到了简化的同时,用户的体验也能得到提高,用户的安全需求也得到了满足,在避免了风险的同时提高了效率[12].

数据在数据管理模块会根据其所属组织和类型被进行分类,并通过设置相应的监管和保护机制对数据进行处理。

为了防止数据外露或被窃取,数据管理模块会对数据进行加密处理并进行备份,这样,即使是在由于硬盘故障或者管理失当的情况下,也不会造成数据的丢失。

数据管理模块还会视情况选定数据的存放地点,这也是其很重要的功能之一。

在应用保护模块,往往会使用电子证书或安全密匙等机制来确保应用发布的API和Web服务等对外接口的安全性,虚拟机的安全性通过虚拟镜像的方式来确保。

系统与网络模块分为两个方面,在系统方面,不仅要做到处于不同主机的不同数据和事件之间的相互隔离,还要做到与服务器的隔离,为了实现这一目标,我们可以通过提虚拟区域和减少服务器监听端口这些方法来实现。

在网络方面,我们通常将其分成可信和不可信这两部分来分别对待[12].对于物理设施模块,我们在确保数据中心人员安全意识和素质的同时,更加需要考虑的是各种设备在云计算环境下的永续性和可靠性,注意其冗余的同时,重视诸如配置同步、链路捆绑聚合和硬件旁路等高级特性。

从而使得系统在大流量汇聚的情况之下能够得到真正的防护。

第三方机构具有成熟的技术和丰富的经验,因此它能够对云计算服务提供商的相关服务进行检测,通过使用标准化的技术手段找出服务的安全漏洞,评估其安全级别,进而使用户对于服务提供商有一定程度上的认识。

在安全认证的同时,第三方机构还起到监管的作用,它会对云服务提供商的云端运行状况进行监控,确保其在安全范围内

运行。

返回本篇论文导航

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1