ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:21.24KB ,
资源ID:9169357      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9169357.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据和大数据技术分析.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据和大数据技术分析.docx

1、大数据和大数据技术分析大数据和大数据技术分析本篇论文快速导航: 题目:大数据处理下新型管理模式探究 第一章:基于大数据处理的管理模式创新研究绪论 第二章:大数据和大数据技术分析 第三章:大数据带来的管理变革和挑战 第四章:基于大数据处理的管理模型 第五章:基于大数据处理的管理模式下信息处理框架设计 总结/参考文献:大数据与新型管理模式的结合总结与参考文献第 2 章 大数据和大数据技术分析由于信息技术和网络的飞速发展, 我们身边所有有的事物都开始 与数据有关。打电话、发短信、网络购物、网络办公 …… 我们的生活和工作实实在在被大量的数据影响着, 数据开始成为了重 要的

2、资源,大数据就这样被提出。如何真确理解大数据, 如何解决大数据问题, 是我们将要分析的。2.1 大数据简介1)大数据的定义对于大数据的定义, 到目前为止仍就没有统一的标准, 常用的定 义有以下几点:XX百科的定义: 大数据又称为巨量资料, 它们无法在有效时间 内通过传统手段或主流工具使数据得到采集, 也无法进行处理和管理, 进而得出有效信息帮助企业进行经营决策 4.维基百科的定义: 大数据指那些数量过于巨大, 因而无法通过人 工等手段,在一定时间内将其截取、处理、管理并整理成简单且易于 人们理解的信息的数据。 因此,大数据也可称为巨量数据或海量数据 5.权威研究机构 Gartner 的定义:大

3、数据是是一种新的信息资产, 其主要特点是高增长率和海量。 大数据的主要目的是为了使企业在全 新处理模式下的决策能力和洞察发现能力的加强和流程的优化。 对于 大数据问题, 是不限于一个维度上, 远远高出传统信息技术处理数据 能力的极端信息管理和信息处理问题 6.互联网周刊的定义为: 通常所指的大数据就是指大量的数据 (TB 级或更大)及处理大量数据的相关技术,其特点可以用通用的 “4V” 来概括。然而,真正的大数据远远不止这些,它涵 盖了所有在小数据基础上无法解决的事情, 也就是说, 我们所说的大 数据,是一种以新的方式方法,对海量数据进行采集分析,从而获取 数据中的价值

4、,提供服务, 是一种前所未有的,给社会带来巨大变革 的方式。 7麦肯锡的定义: 大数据是一个数据集合, 其集合中的数据 无法通过传统的数据处理工具在有效时间内得到采集、 存储和管理等 处理7.无论从哪一种定义上来看, 大数据都并非一种全新的技术或者一 种全新的产品,大数据只是信息数字化时代高速发展所面临的一些问 题的概括, 一种普遍面临的现象而已, 这一点和本世纪之初就早已出 现的& dquo;海量数据& rdquo;有某些相同之处。那么海量数据与大数 据的有什么区别呢?大数据除了包括海量数据中的结构化和半结构 化数据之外还包括非结构化和交互数据。从上世纪 60 年代至 80 年代中期, 随着

5、信息技术的进步。 数据 处理的方式也在不断演进。 由最开始的应用程序直接管理数据的文件 存储方式到具有面向性、集成性、飞易失性、时变性等特点的数据库 存储方式,然后伴随着 Web2.0 的兴起,人们开始广泛应用基于 Web2.0 的非关系型数据库等数据存储技术。到目前,由于社交网络 的快速发展和移动终端的普及, 数据关系到人们生活的方方面面, 数 据量呈指数形态爆发式增长, 面对这样海量的且纷繁复杂的数据, 传 统的数据处理方式已经逐渐无法适应, 对于如何去发现数据中所存在 的价值和了解数据之间存在的规则和关系, 以往的方法都都无法很好解决。然而大数据技术很好的解决了这个难题。故而我们认为,所

6、谓大数据,就是一种利用分布式计算构架,依 托云计算的分布式处理、 分布式数据库、 云存储和虚拟化等相关技术, 通过数据挖掘与分析,从大量化、多类别的数据中提取价值的 IT 领 域的一种新的技术构架。2)大数据的基本特征大数据的特点可以概括为 4V+1C即数量(Volume)、速度(Velocity)和种类(Variety)、价值性(Value)、复杂 complexity) 5.Volume指的是数据巨大的数据量以及其规模的完整性。大数据 聚合在一起的数据量是十分庞大的,根据 IDC 的定义至少要有超过 100T 的可供分析的数据,更多的也认为大数据至少应到达 PB 的规 模。大的数据量,是大

7、数据的基本属性。Velocity 所指的有两个层面,其一是数据的获取速度快,其二是 在数据量庞大的情况下, 数据的分析和处理速度的快速, 即数据的实 时分析。Variety 指数据的类别繁多,由于数据来源的多样化,数据的种 类和格式也日渐丰富, 除了结构化数据, 非结构化和半结构数据大量 存在,例如地理位置信息、视频信息、图片信息等。Value 可以从两个方面来讲,即数据的低价值密度和高价值性。 就是通过整合分析大量数据才能得出有重要实际应用价值的信息。由于大数据 “4V” 特性的存在,使得针对大数据的处 理和分析变得更加困难, 传统的关系型数据库系统已经无法处理, 需

8、 要根据不同的业务场景和业务需要, 使用不同的分析处理方法, 这样 一来,其复杂度便大大增加了。2.2 大数据处理技术2.2.1 海量数据的存储正如前面所描述的, 大数据时代的首要特点就是海量的数据, 由 于互联网的发展, 不同应用特性的用户规模、 数据存储规模也不尽相 同,大数据时代的互联网应用的中海量数据我们可以归纳出以下特性:(1)用户群体大,增长速度快。 eBay 的页面点击率在过去 10 年 之内的平均增长率达到了日均 10 亿次,虽然页面的点击次数并不能同客户人数划等号, 但是页面点击率同增长率也可以从一定程度上反 应用户的增长规模 6.(2)数据总量大,增长速度快。这其中包括静态

9、数据处理的图片和视频共享,大量信息互动服务的SNS数据的存储总量已达到 TB 级别甚至 PB 级别。随着互联网技术的迅速发展, 使得这些数据量变 得越来越大 6.(3)数据类型多样化。面对 Web2.0 时代,我们需要处理的不 仅有大量用户分享的数据(图片、视屏、日志等) ,同时还需要处理 大量交互型数据(邮件、消息、点击事件等) 。这些数据大小不一, 数据类型更是多种多样。 这对于海量数据存储、 管理提出了严峻的考 验6.基于以上特性,对于海量数据的处理和存储就有了许多的挑战, 概括如下:(1) 为了满足海量的数据需求,数据存储系统将会更大,往往 达到TB或者PB级别。(2) 系统的良好扩展

10、性能,能够使系统在正常运行的情况下能够适应不断增长和变换的用户群体及数据。(3)存储系统的吞吐量高且具有低延时性。(4)面对结构化、半结构化、非结构化等数据、都有相应的存 储类型。(5)对于分布式环境下的数据分布和容错等问题使用并行编程 模型灵活处理,使海量数据处理简单化。面对着大规模的数据分析需求, 由于数据访问速度越来越快等因 素,面向结构化的传统数据存储方式已经无法适应。 最常见的三种解 决数据存储的方式是直连式存储(DAS、连接式存储(NAS、存储 式网络(SAN 7,但是面对越来越多、越来越复杂的数据,这三种方 式就有了各自明显的缺陷。 低扩展性和低性能是直连式存储的主要缺 陷。链接

11、式存储在成本上虽然较低,使用也比较便捷,然而其存储性 能很低。存储式网络的构建成本较高,虽然能提高数据的传输效率, 然而由于其封闭式的构架使得其很难与其他系统整合。 于是我们在此 提出一种基于云计算的海量数据存储模型(如图 3.1、,我们应用实 现了 MapReduce 计算模式的开源分布式并行框架 Hadoop8, 从而 实现海量数据的存储。用户的应用请求的接受和应答在主服务控制集群中进行, 此处主要起到控制的作用。 产生的数据经过数据流存储到由海量数据存储能 力集群系统或者磁盘阵列组成的数据存储节点集群。 主服务控制集群 和存储节点集群之间通过 HDFS 和 Hbase 来实现,它们能够将

12、数据 库部署到各个节点之上。 通过 Hadoop 构架,用户可以在给主服务控 制集群传递信息后, 直接通过存储节点进行数据的读取和操作, 这样 就避免了由于大量的数据读取操作造成的系统拥塞。用户的存储数据信息通过主服务控制集群传递到 Hadoop 构架, 数据通过 MapReduce 中的 Map 函数被进行切割计算 9, 从而分割 成若干数据块,数据块通过 HDFS 和 Hbase 分配到各个存储节点之 中,之后在将存储节点地址和数据块信息返回给主服务控制集群, 用 户在通过主服务控制集群获得这些信息。通过这一过程, 用户从而完成数据的存储操作。 在某一节点失效 时,会立刻将正在处理的数据块

13、进行重新分配 10.用户提取数据的时 候,主服务控制集群接收到用户的提取数据信息, HDFS和Hbase查找到相关数据块信息并将其传送给主服务控制集群, 在接收到反馈信 息之后,主服务控制集群在将其传回给用户。用户接收到信息之后, 根据信息创建每个节点的下载线程, 将文件块下载到本地计算机中然 后利用 MapReduce 的 Reduce 函数将其整合成一个完整的信息文件 之后除文件块 11.当 Hadoop 发现某个节点失效时,立即将正在取出的文件交由 另一空闲的节点来重新进行下载, 从而保证下载顺利完成。 通过利用 分布式文件系统、分布式数据库、 Hadoop 框架和云计算的核心 MapR

14、educe 技术,从而实现数据的并行计算和分布式存储,使得存 储模块能够更好的适用于海量数据的存储。2.2.2 数据安全和隐私保护大数据时代最显着的一个问题便是面对越发开放的网络环境, 那 么要如何保证数据的安全性, 如何使隐私得到最大的保护。 上面我已 经解释了云计算是解决大数据下新型管理模式的方法, 那么在此, 我 们就探讨基于云计算的的数据安全防护。 由于数据和应用都存储和运 营在远端的云计算中心这一有异于传统的数据中心存储这一模式的 特性,以至有人觉得云计算对于数据安全完全是一场恶梦, 然而相对 于传统的安全系统的高成本、 高复杂度而言, 云计算通过云系统统一 提供服务, 大大简化了管

15、理的复杂度, 从而降低了缺陷和漏洞存在的 几率,云计算在构架上的同质化使得安全方面的审计、 评估和测试更 加简单和方便。 由大型云供应商提供的的云计算服务在服务质量方面 的保证也更加确立了其安全性; 多数据中心的存在也保证了服务稳定 地运行。云计算安全构架主要包括 3 大部分(如图 3.2):云客户端、 云端和第三方机构。 云客户端通过访问云端来得到服务, 第三方机构 对云端的安全机制进行审核,并进行监控 12.为了使云客户端在病毒、 木马和间谍软件等侵害的时候能够得到 保护,防火墙、 打补丁和安装杀毒软件等手段被我们使用在此处。除 此之外,为了实现云模式下的安全监测和防护, 我们还充分利用了

16、云 端的超强计算能力。面对可疑的数据流量, 任何一个客户端都可以在第一时间将其送 到后台的云检测中心进行安全解析, 如果发现安全威胁, 则快速将解 析的结果推送到全部的安全网关和客户端, 这样一来, 整个云中的客 户端和安全网关就能够检测到这种未知的威胁从而到达防护的作用。为了使云客户端在病毒、 木马和间谍软件等侵害的时候能够得到 保护,防火墙、 打补丁和安装杀毒软件等手段被我们使用在此处。除 此之外,为了 1 面对可疑的数据流量, 任何一个客户端都可以在第一 时间将其送到后台的云检测中心进行安全解析,如果发现安全威胁, 则快速将解析的结果推送到全部的安全网关和客户端, 这样一来, 整 个云中

17、的客户端和安全网关就能够检测到这种未知的威胁从而到达 防护的作用。云端的安全构架最顶层是整体监管和合规性模块, 它主要用于观 测整个云计算体系的安全状况, 使管理人员对于整个云计算中心能够 实施有效的监管,避免恶性事件的发生,从而保护整个系统的安全。通过对于云端构架的整体设计和一些相关流程的审计与合规性的定 义,使整个体系所必须遵从一定的协议, 以提高在整个云构架的可信 度。安全通信模块通过使用安全套接层(SSL和传输层安全(TLS 等安全技术使云端和云客户端之间通信的完整性和私密性。 它具有强 大的防火墙功能和巨大的网络处理能力 12.系统的数据访问权限授予由用户管理模块负责, 用户通过其获

18、得 数据访问权限, 同时非授权的非法访问在此得到阻止。 用户只能根据 被授予的权限进行数据的访问操作, 在确保用户基本访问权限的同时, 对于用户的访问行为进行记录进而检测,从而发现用户的越权行为。 通过集中的账号管理机制, 认证管理的过程得到了简化的同时, 用户 的体验也能得到提高, 用户的安全需求也得到了满足, 在避免了风险 的同时提高了效率 12.数据在数据管理模块会根据其所属组织和类型被进行分类, 并通 过设置相应的监管和保护机制对数据进行处理。 为了防止数据外露或 被窃取,数据管理模块会对数据进行加密处理并进行备份,这样,即 使是在由于硬盘故障或者管理失当的情况下, 也不会造成数据的丢

19、失。 数据管理模块还会视情况选定数据的存放地点, 这也是其很重要的功 能之一。在应用保护模块, 往往会使用电子证书或安全密匙等机制来确保 应用发布的 API 和 Web 服务等对外接口的安全性,虚拟机的安全 性通过虚拟镜像的方式来确保。系统与网络模块分为两个方面, 在系统方面, 不仅要做到处于不 同主机的不同数据和事件之间的相互隔离, 还要做到与服务器的隔离, 为了实现这一目标, 我们可以通过提虚拟区域和减少服务器监听端口 这些方法来实现。在网络方面,我们通常将其分成可信和不可信这两部分来分别对 待 12.对于物理设施模块, 我们在确保数据中心人员安全意识和素质 的同时,更加需要考虑的是各种设备在云计算环境下的永续性和可靠 性,注意其冗余的同时,重视诸如配置同步、链路捆绑聚合和硬件旁 路等高级特性。 从而使得系统在大流量汇聚的情况之下能够得到真正 的防护。第三方机构具有成熟的技术和丰富的经验, 因此它能够对云计算 服务提供商的相关服务进行检测, 通过使用标准化的技术手段找出服 务的安全漏洞, 评估其安全级别, 进而使用户对于服务提供商有一定 程度上的认识。在安全认证的同时,第三方机构还起到监管的作用, 它会对云服务提供商的云端运行状况进行监控, 确保其在安全范围内运行。返回本篇论文导航

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1