大数据云计算文献综述.docx
《大数据云计算文献综述.docx》由会员分享,可在线阅读,更多相关《大数据云计算文献综述.docx(41页珍藏版)》请在冰豆网上搜索。
大数据云计算文献综述
大数据云计算文献综述
一个大数据的调查
摘要:
在这篇论文中,我们将回顾大数据的背景以及当前发展状况。
我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:
云计算、物联网、数据中心,以及Hadoop。
接下来我们着重大数据价值链的四个阶段,也就是:
数据生成,数据采集,数据存储和数据分析。
对于每个阶段,我们介绍应用背景,讨
论技术难题以及回顾最新技术。
最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。
这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。
这个调查包括了对开放问题和未来方向的讨论。
关键字大数据云计算物联网数据中心Hadoop智能电网大数据分析
1、背景
1.1大数据时代的曙光
在过去的二十年,数据在各种各样的领域内爆炸式增长。
按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。
在未来这个数字至少每两年增加一倍。
在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。
与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。
另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。
近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。
此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。
这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。
大数据的时代已经到来超越一切质疑[10]。
目前,与互联网公司的业务相关联的大数据快速增长。
例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。
图1示出的全球数据量的热潮。
当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下:
图一、持续增长的数据
信息技术的最新发展(IT)使其更容易以产生数据。
例如,每分钟有平均72个小时的视频上传到YouTube[11]。
因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。
云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。
云计算提供了安全措施,访问网站以及数据资产的渠道。
在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。
这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。
日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。
考虑到大数据的异质性,可扩展性,实时性,复杂性和保密性,我们将有效地通过在不同层面分析,建模,可视化和预测,进而“开采”数据集,从而揭示其内在的性能以及完善决策。
1.2、大数据的定义和特点
大数据是一个抽象的概念。
除了大量的数据,它也有一些其他的功能,这决定本身和“海量数据”或之间的差异“很大的数据。
”目前,虽然大的数据的重要性已经成为共识,人们仍然对它的定义有不同意见。
一般情况下,大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。
因为不同的关注点,科技企业,研究学者,数据分析,技术从业人员对大数据有不同的定义。
以下定义可以帮助我们有一个在更好地理解大数据在社会,经济里的技术内涵。
2010年,ApacheHadoop将大数据定义为“大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。
”在这一定义的基础上,在2011年5月,麦肯锡公司,一个全球咨询机构宣布大数据作为下一个前沿创新,竞争和生产力。
大数据系也可指可能用经典数据库软件无法获得、存储、管理的数据集,这个定义包括两个含义:
一是数据集“卷符合大数据的标准正在发生变化,可随着时间的推移或技术的进步;其次,数据集“卷顺应大标准
在不同的应用数据彼此不同。
在目前,大数据一般为几个TB到几PB[10]。
从麦肯锡公司的定义,可以看出,一个数据集的体积不是唯一标准大数据。
日益增长的数据规模不能由传统的处理,并对其管理数据库技术是接下来的两个关键特性。
事实上,早在2001年,META的分析师(现Gartner公司)道格·莱尼通过3VS模型将大数据定义为挑战和机遇。
即,增加的数据数量,速度和品种,在研究报告中[12],尽管这种最初不是用模型来定义大数据,未来十年里,Gartner等多家企业,其中包括IBM[13]和微软的[14]研究部门仍然采用的是“3VS”模型来描述大数据。
在“3VS”的模式中,数据卷是指,与人民群众的产生和收集数据,数据规模越来越大;速度意味着大数据的时效性,具体而言,数据采集和分析等必须迅速和及时进行的从而为最大限度地利用大数据的商业价值;各种指示各种类型的数据,其中包括半结构化和非结构化数据,例如音频,视频,网页,和文字,以及传统的结构化数据。
然而,其他人有不同的意见,包括IDC,一个在大数据和研究领域最有影响力的领导人之一。
2011年,IDC的报告定义大数据为“大数据技术描述了新一代的技术和架构,旨在在经济上提取捕捉,发现,和/或分析非常大量的各种数据的“[1]根据这个定义,大数据的特点可以概括为4Vs时,即体积(大体积),
品种(各种形式),速度(快速生成),和价值(巨大的价值,但很低密度)。
如图2,这类4Vs定义被广泛认可它强调大数据,即意义和必要性,探索隐藏的巨大价值。
这个定义说明在大数据中最关键的问题,是如何在一个巨大的规模,各类型和快速生成的数据集中发现价值。
至于周帕瑞克,Facebook的副总监工程师说,“如果你不利用所收集的数据,你只能拥有的数据不是大数据,“。
[11]此外,NIST的定义大数据“大数据应其中,平均数据的数据量,采集速度,或数据表示限制使用传统的能力关系的方法来进行有效的分析或数据这可能有重要的水平缩放技术“,其重点是技术得到有效处理大数据方面。
它表明,有效的
方法或技术需要开发并用于分析和处理大数据,已经有来自大量讨论。
工业界和学术界对大数据[16,17]的定义。
除了制定一个适当的定义,大数据如何研究还应该着眼于如何提取它的价值,使用数据,以及如何将“一堆数据”变成“大数据。
”
图2、大数据的4Vs模型
1.3大数据的价值
麦肯锡公司观察到大数据创造价值观对美国医疗保健的深入研究后,欧盟公共部门管理,美国零售业、全球制造,和全球个人位置数据。
通过对代表全球经济的五大核心产业的研究,麦肯锡的报告指出,大数据可以充分发挥经济职能,我证明了企业和公共部门的生产力和竞争力,为消费者创造了巨大的利益。
在[10],麦肯锡总结大数据可以创造的价值:
如果大数据C将创造性和有效利用来提高效率和质量,美国的医疗行业通过获得的数据可能会超过300美元亿美元的潜在价值,从而减少花费引言美国医疗8%以上;零售商充分利用大数据可以提高超过60%的利润;也可以利用大数据来提高政府的效率,歌剧在欧洲,这样的发达经济体可以节省超过100欧元亿美元(不包括减少欺诈、错误和税收差异影响)。
麦肯锡的报告被视为前瞻性和预测性,而下面的事实可以验证大数据值。
2009流感大流行期间,谷歌获得及时的信息,通过分析化大数据,甚至提供比由疾病预防中心提供更多有价值的信息。
几乎所有国家所需的医院通知机构,如疾病预防中心流感病例的新类型。
然而,患者通常没有立即看医生的时候,感染。
同时
也花了一些时间从医院到疾病预防的信息中心和疾病预防中心分析总结等信息。
因此,当公众意识到新流感的大流行,这种疾病可能已经一到两周的时间,一个滞后的性质。
谷歌发现,在流感的传播,作品经常寻求在其搜索引擎将不同于那
些普通的钛MES和参赛作品的使用频率相关的流感传播的时间和地点。
谷歌发现45的搜索条目组密切相关的疫情流感和将它们在具体的数学模型来预测流感
的传播,甚至预测流感传播的地方。
相关研究成果已发表的他在自然[18]。
2008,微软收购了Farecast,美国科技公司Farecast的机票预测系统,预测趋势和上升/下降的机票价格范围。
该系统已被纳入微软的必应搜索引擎。
到2012时,该系统已节省近50美元每名乘客的门票,与预测精度高达75%。
目前,数据已成为重要的生产因素,可能是与物质资产和人力资本。
多媒体、社交媒体、物联网是发展,企业将收集没有更多的信息,领先
指数增长的数据量。
大数据将有一个巨大的和不断增加的潜力,为企业和消费者创造价值。
1.4大数据的发展
在上世纪70年代末,出现“数据库机器”的概念,是一种专门用于存储和分析数据的技术。
随着数据量的增加,存储和处理能力单一主机系统的一个不充分。
在上世纪80年代,人们提出了“无共享,“并行数据库系统,以满足日益增长
的数据量需求[19]。
分享没有系统的架构是基于集群的使用,每个机器都有自己的处理器,存储和磁盘。
Teradata系统是第一个成功的商业并行数据库系统。
苏最近的数据库变得非常流行。
1986年6月2日,一个具有里程碑意义的事件发生时,Teradata交付第一并行数据库系统的存储容量1TB凯马特帮助大通用电气规模在北美国的零售公司,以扩大其数据仓库[20]。
在20世纪90年代末,并行数据库的优势在数据库领域得到了广泛的认可。
然而,许多大数据的挑战出现了。
随着互联网服务的发展,索引和查询内容的迅速增长。
因此,搜索引擎公司不得不面对的挑战处理这些大数据。
谷歌创造了GFS[21]和[22]编程模型MapReduce处理所带来的数据管理和分析在互联网规模的挑战。
此外,内容由用户生成,传感器,和其他无处不在的数据源也要压倒
性的数据流,这需要一个根本性的变化,在计算架构和大型数据库加工机理。
在一月2007,吉姆灰色,数据库软件的先驱,这种转变称为“第四范式”[23]。
他还认为,应对这种范式的唯一途径是开发新一代的计算工具来管理,可视化和分析质量我的数据。
2011年六月,另一个具有里程碑意义的事件发生;EMC/IDC发表题为从混沌[1]提取价值的研究报告,其中介绍的概念和对F大数据潜力第一次。
本研究报告引发了业界和学术界对大数据的极大兴趣。
在过去的几年中,几乎所有的大公司,包括EMC、Oracle、IBM、微软、谷歌、AMAZON,和Facebook等已经开始了他们的大数据项目。
以IBM为例,自2005,IBM已经投资16美元亿30收购大数据相关。
在学术界,大数据也在聚光灯下。
在2008,自然发表了一个大数据的特殊问题。
2011、科学性在大数据的“数据处理”的关键技术,推出了一个特殊的问题。
2012、欧洲信息学与数学研究协会
(会)新闻出版大型特刊数据。
在2012年初,一份题为“大数据”的大冲击在
瑞士达沃斯论坛上发表,宣布大数据已经成为一种新的经济资产,就像货币一样或黄金。
一个国际研究机构Gartner,发出炒作周期从2012到2013,其中大数据计算、社会分析、存储数据分析等48个新兴技术值得最关注。
许多国家的政府,如美国也非常重视大数据。
月2012日,奥巴马政府宣布了2
亿美元的投资,推出“大数据研究