ImageVerifierCode 换一换
格式:DOCX , 页数:41 ,大小:651.13KB ,
资源ID:95169      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/95169.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据云计算文献综述.docx)为本站会员(b****9)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据云计算文献综述.docx

1、大数据云计算文献综述大数据云计算文献综述一个大数据的调查摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及 Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。关键字 大数据 云计

2、算 物联网 数据中心 Hadoop 智能电网 大数据分析1、背景1.1 大数据时代的曙光在过去的二十年,数据在各种各样的领域内爆炸式增长。按照 2011 年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到 1.8zb,在五年内增长了大约九倍1。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。近日,行业产生兴趣的大数据的高潜力

3、,许多政府机构公布主要计划加快大数据的研究和应用2。此外,大数据问题往往覆盖在公共媒体,如经济学3,4, 纽约时报5,和全国公共广播电台6,7。这两个主要的科学期刊,Nature 和Science,还开通了专栏讨论大数据的挑战和影响8,9。大数据的时代已经到来超越一切质疑10。目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook 的生成日志数据每月有超过 10 PB,百度一家中国公司百度,业务流程有数十 PB 的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1 示出的全球数据量的热潮。当大型数据集的数量急剧上升,

4、它也带来了许多具有挑战性的问题,解决方案如下:图一、持续增长的数据信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均 72 个小时的视频上传到 YouTube11。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对 IT 架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基

5、础上存储和管理如此庞大的异构数据集的问题。考虑到大数据的异质性,可扩展性,实时性,复杂性和保密性,我们将有效地通过在不同层面分析,建模,可视化和预测,进而“开采”数据集,从而揭示其内在的性能以及完善决策。1.2 、大数据的定义和特点大数据是一个抽象的概念。除了大量的数据,它也有一些其他的功能,这决定本身和“海量数据”或之间的差异“很大的数据。”目前,虽然大的数据的重要性已经成为共识,人们仍然对它的定义有不同意见。一般情况下,大数据是指不能由传统 IT 和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。因为不同的关注点,科技企业,研究学者,数据分析,技术从业人员对大数据有不同的定义。以

6、下定义可以帮助我们有一个在更好地理解大数据在社会,经济里的技术内涵。2010 年,Apache Hadoop 将大数据定义为“大数据是指不能由传统 IT 和软件/ 硬件工具在允许的时间内处理察觉,获取,管理的数据集。”在这一定义的基础上,在 2011 年 5 月,麦肯锡公司,一个全球咨询机构宣布大数据作为下一个前沿创新,竞争和生产力。大数据系也可指可能用经典数据库软件无法获得、存储、管理的数据集,这个定义包括两个含义:一是数据集“卷符合大数据的标准正在发生变化,可随着时间的推移或技术的进步;其次,数据集“卷顺应大标准在不同的应用数据彼此不同。在目前,大数据一般为几个 TB 到几 PB 10。从

7、麦肯锡公司的定义,可以看出,一个数据集的体积不是唯一标准大数据。日益增长的数据规模不能由传统的处理,并对其管理数据库技术是接下来的两个关键特性。事实上,早在 2001 年,META 的分析师(现 Gartner 公司)道格莱尼通过 3VS 模型将大数据定义为挑战和机遇。即,增加的数据数量,速度和品种,在研究报告中12,尽管这种最初不是用模型来定义大数据,未来十年里,Gartner 等多家企业,其中包括 IBM 13和微软的14研究部门仍然采用的是“3VS”模型来描述大数据。在“3VS”的模式中,数据卷是指,与人民群众的产生和收集数据, 数据规模越来越大;速度意味着大数据的时效性,具体而言,数据

8、采集和分析等必须迅速和及时进行的从而为最大限度地利用大数据的商业价值;各种指示各种类型的数据,其中包括半结构化和非结构化数据,例如音频,视频,网页,和文字,以及传统的结构化数据。然而,其他人有不同的意见,包括IDC,一个在大数据和研究领域最有影响力的领导人之一。2011 年,IDC 的报告定义大数据为“大数据技术描述了新一代的技术和架构,旨在在经济上提取捕捉,发现,和/或分析非常大量的各种数据的“1 根据这个定义,大数据的特点可以概括为 4 Vs 时,即体积(大体积),品种(各种形式),速度(快速生成),和价值(巨大的价值,但很低密度)。如图 2,这类 4Vs 定义被广泛认可它强调大数据,即意

9、义和必要性,探索隐藏的巨大价值。这个定义说明在大数据中最关键的问题,是如何在一个巨大的规模, 各类型和快速生成的数据集中发现价值。至于周帕瑞克,Facebook 的副总监工程师说,“如果你不利用所收集的数据,你只能拥有的数据不是大数据,“。11 此外,NIST 的定义大数据“大数据应 其中,平均数据的数据量,采集速度,或数据表示限制使用传统的能力关系的方法来进行有效的分析或数据这可能有重 要的水平缩放技术“,其重点是技术得到有效处理大数据方面。它表明,有效的方法或技术需要开发并用于分析和处理大数据,已经有来自大量讨论。工业界和学术界对大数据16,17的定义。除了制定一个适当的定义,大数据如何研

10、究还应该着眼于如何提取它的价值,使用数据,以及如何将“一堆数据”变成“大数据。”图 2、大数据的 4Vs 模型1.3 大数据的价值麦肯锡公司观察到大数据创造价值观对美国医疗保健的深入研究后,欧盟公共部门管理,美国零售业、全球制造,和全球个人位置数据。通过对代表全球经济的五大核心产业的研究,麦肯锡的报告指出,大数据可以充分发挥经济职能,我证明了企业和公共部门的生产力和竞争力,为消费者创造了巨大的利益。在 10 , 麦肯锡总结大数据可以创造的价值:如果大数据 C 将创造性和有效利用来提高效率和质量,美国的医疗行业通过获得的数据可能会超过 300 美元亿美元的潜在价值,从而减少花费引言美国医疗 8%

11、以上;零售商充分利用大数据可以提高超过60%的利润;也可以利用大数据来提高政府的效率,歌剧在欧洲,这样的发达经济体可以节省超过 100 欧元亿美元(不包括减少欺诈、错误和税收差异影响)。麦肯锡的报告被视为前瞻性和预测性,而下面的事实可以验证大数据值。 2009 流感大流行期间,谷歌获得及时的信息,通过分析化大数据,甚至提供比由疾病预防中心提供更多有价值的信息。几乎所有国家所需的医院通知机构,如疾病预防中心流感病例的新类型。然而,患者通常没有立即看医生的时候,感染。同时也花了一些时间从医院到疾病预防的信息中心和疾病预防中心分析总结等信息。因此,当公众意识到新流感的大流行,这种疾病可能已经一到两周

12、的时间,一个滞后的性质。谷歌发现,在流感的传播,作品经常寻求在其搜索引擎将不同于那些普通的钛 MES 和参赛作品的使用频率相关的流感传播的时间和地点。谷歌发现 45 的搜索条目组密切相关的疫情流感和将它们在具体的数学模型来预测流感的传播,甚至预测流感传播的地方。相关研究成果已发表的他在自然 18 。2008,微软收购了 Farecast,美国科技公司 Farecast 的机票预测系统,预测趋势和上升/下降的机票价格范围。该系统已被纳入微软的必应搜索引擎。到 2012 时, 该系统已节省近 50 美元每名乘客的门票,与预测精度高达 75%。目前,数据已成为重要的生产因素,可能是与物质资产和人力资

13、本。多媒体、社交媒体、物联网是发展,企业将收集没有更多的信息,领先指数增长的数据量。大数据将有一个巨大的和不断增加的潜力,为企业和消费者创造价值。1.4 大数据的发展在上世纪 70 年代末,出现“数据库机器”的概念,是一种专门用于存储和分析数据的技术。随着数据量的增加,存储和处理能力单一主机系统的一个不充分。在上世纪 80 年代,人们提出了“无共享,“并行数据库系统,以满足日益增长的数据量需求 19 。分享没有系统的架构是基于集群的使用,每个机器都有自己的处理器,存储和磁盘。Teradata 系统是第一个成功的商业并行数据库系统。苏最近的数据库变得非常流行。1986 年 6 月 2 日,一个具

14、有里程碑意义的事件发生时,Teradata 交付第一并行数据库系统的存储容量 1TB 凯马特帮助大通用电气规模在北美国的零售公司,以扩大其数据仓库 20 。在 20 世纪 90 年代末,并行数据库的优势在数据库领域得到了广泛的认可。然而,许多大数据的挑战出现了。随着互联网服务的发展,索引和查询内容的迅速增长。因此,搜索引擎公司不得不面对的挑战处理这些大数据。谷歌创造了GFS 21 和 22 编程模型 MapReduce 处理所带来的数据管理和分析在互联网规模的挑战。此外,内容由用户生成,传感器,和其他无处不在的数据源也要压倒性的数据流,这需要一个根本性的变化,在计算架构和大型数据库加工机理。在

15、一月 2007,吉姆灰色,数据库软件的先驱,这种转变称为“第四范式” 23 。他还认为,应对这种范式的唯一途径是开发新一代的计算工具来管理,可视化和分析质量我的数据。2011 年六月,另一个具有里程碑意义的事件发生;EMC / IDC 发表题为从混沌 1 提取价值的研究报告,其中介绍的概念和对 F 大数据潜力第一次。本研究报告引发了业界和学术界对大数据的极大兴趣。在过去的几年中,几乎所有的大公司,包括 EMC、Oracle、IBM、微软、谷歌、AMA ZON,和 Facebook 等已经开始了他们的大数据项目。以 IBM 为例,自 2005, IBM 已经投资 16 美元亿 30 收购大数据相关。在学术界,大数据也在聚光灯下。在 2008,自然发表了一个大数据的特殊问题。2011、科学性在大数据的“数据处理”的关键技术,推出了一个特殊的问题。2012、欧洲信息学与数学研究协会(会)新闻出版大型特刊数据。在 2012 年初,一份题为“大数据”的大冲击在瑞士达沃斯论坛上发表,宣布大数据已经成为一种新的经济资产,就像货币一样或黄金。一个国际研究机构 Gartner,发出炒作周期从 2012 到 2013,其中大数据计算、社会分析、存储数据分析等 48 个新兴技术值得最关注。许多国家的政府,如美国也非常重视大数据。月 2012 日,奥巴马政府宣布了 2亿美元的投资,推出“大数据研究

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1