大数据研究报告综述.docx

上传人:b****4 文档编号:3067738 上传时间:2022-11-17 格式:DOCX 页数:6 大小:23.92KB
下载 相关 举报
大数据研究报告综述.docx_第1页
第1页 / 共6页
大数据研究报告综述.docx_第2页
第2页 / 共6页
大数据研究报告综述.docx_第3页
第3页 / 共6页
大数据研究报告综述.docx_第4页
第4页 / 共6页
大数据研究报告综述.docx_第5页
第5页 / 共6页
点击查看更多>>
下载资源
资源描述

大数据研究报告综述.docx

《大数据研究报告综述.docx》由会员分享,可在线阅读,更多相关《大数据研究报告综述.docx(6页珍藏版)》请在冰豆网上搜索。

大数据研究报告综述.docx

大数据研究报告综述

大数据研究综述

摘要:

从大数据根本理论,大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,重点比拟当前大数据处理工具的优缺点,并深入归纳总结了基于数据存储大数据处理技术,对未来研究进展展望。

关键词:

大数据,综述,数据处理,数据挖掘

引言

现代社会提到大数据大家都知道这是近几年才形成的对于数据相关的新名词,在1980年,,著名未来学家阿尔文·托夫勒便在?

第三次浪潮?

一书中,将大数据热情地赞颂为“第三次浪潮的乐章〞。

在20世纪80年代我国已经有一些专家学者谈到了海量数据的加工和管理,但是由于计算机技术和网络技术的限制大数据未能引起足够的重视,它蕴藏的巨大信息资源也暂时隐藏了起来。

随着云计算技术的开展,互联网的应用越来越广泛,以微博和博客为代表的新型社交网络的出现和快速开展,以及以智能手机、平板电脑为代表的新型移动设备的出现,计算机应用产生的数据量呈现了爆炸性增长的趋势。

2021年末出版的?

大数据时代?

的作者英国牛津大学网络学院互联网研究所治理与监管专业教授维克托·尔耶·舍恩伯格在书的引言中说,大数据正在改变人们的生活以及理解世界的方式,而更多的改变正蓄势待发。

美国总统奥巴马的成功竞选及连任的背后都有大数据挖掘的支撑,美国政府认为,大数据是“未来的新石油〞,并将对大数据的研究上升为国家意志,这对未来的科技与经济开展必将带来深远影响[1]。

如今,大数据已成为一项业务上优先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。

大数据的应用围如此广泛,与大数据相关的很多问题都引起了专家和学者的重视。

大数据最根本的问题-大数据的定义目前还没有一个统一的定论,但大数据作为一种根底性资源需要被处理才能显现其潜在的价值,那么如何更好地处理大数据这种根底性资源就显得特别重要,因为这些问题都关系到大数据核心价值的表达。

为此,本文从大数据假设干个版本的概念出发,调查分析了大数据的研究和应用现状,重点分析了当前主流的大数据处理工具和技术,最后预测了大数据未来的几个研究和开展方向。

大数据的概念

从学术上来讲,大数据一次最贴切的概念最早出现在2021?

Nature?

杂志所设立的“BigData〞专刊中,该专刊所发表的文章分别从互联网,数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战。

2021年?

Science?

杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间用目前的技术、方法和理论去获取、管理、处理的数据〞[2]。

比拟有影响力的Gartner公司也给出了大数据的定义[3],大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化。

这种定义不仅是数据规模大,更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效性价值的信息,但是这些数据类型众多,构造化、半构造化、非构造化的数据对已有的数据处理模式带来了巨大的挑战,其中也表达了大数据在3V根底上开展的4V定义。

4V定义即volume,variety,velocity,value,关于第4个V的说法并不统一,国际数据公司(InternationalDataCorporation,IDC)认为大数据还应当具有价值性(value)[4],大数据的价值往往呈现出稀疏性的特点;而IBM认为大数据必然具有真实性(veracity)[5],这样有利于建立一种信任机制,有利于领导者的决策。

XX百科对大数据的定义是:

大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间到达撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。

大数据的科学家Rauser提到一个简单的定义:

大数据就是超过了任何一个计算机处理能力的庞大数据量。

大数据的研究与应用现状

虽然大数据的概念没有一个统一的定论,但这对于大数据的研究而言并不是最重要的,如何使用大数据才是关键。

研究大数据其实也就是为了更好地应用大数据,所以国外对大数据的研究与应用都相当重视。

事实上,大数据的研究与应用已经在互联网、商业智能、咨询与效劳以及医疗效劳、零售业、金融业、通信等行业显现,并产生了巨大的社会价值和产业空间。

来自麦肯锡2021年大数据报告中的一组数据显示,大数据产业为美国医疗系统带来每年3000亿美元的收益;为欧洲公共管理部门带来2500亿欧元的收益;为零售业增加60%的净利润;为制造业减少50%的产品研发等本钱。

而Canner认为,2021年超过85%的财富500强企业将在大数据竞争中失去优势。

据市场调研机构IDC预测,大数据技术与效劳市场将从2021年的32亿美元攀升到2021年的169亿美元,实现40%的年增长率(IT与通信产业增长率的7倍)[7]。

从上面的统计数据很容易看出大数据的应用之广,价值之大。

国外的大数据研究工作主要集中在如何进展大数据存储、处理、分析以及管理的技术及软件应用上。

在学术界,?

Nature?

早在2021年就推出了“bigdata〞专刊,从互联网技术、超级计算、生物医学等方面来专门探讨对大数据的研究。

2021年3月,美国公布了旨在提高和改良人们从海量信息数据中获取信息能力的“大数据研发方案〞[1]。

2021年4月欧洲信息学与数学研究协会会刊?

ERCIMNews?

出版专刊“bigdata〞,讨论了大数据时代的数据管理、数据密集型研究的创新技术等问题。

2021年7月,日本推出“新ICT战略研究方案〞,其中重点关注大数据应用,将大数据定位为战略领域之一。

在具体的实际应用方面,大数据也显现出了它的价值所在。

谷歌公司通过对人们在网上检索的词条与疾病中心的数据进展分析处理,有效及时地判断出了流感的传播来源,为公共卫生机构提供了有价值的信息,这是来自2021年?

Science?

杂志上发表的一篇论文。

乔布斯通过大数据辅助癌症治疗,丹麦癌症协会通过大数据研究手机是否致癌等。

美国最大的西奈山医疗中心(MountSinaiMeddicalCenter)使用来自大数据创业公司Ayasdi的技术分析大肠杆菌的全部基因序列,包括超过100万个DNA变体,来了解为什么菌株会对抗生素产生抗药性。

Ayasdi的技术使用了一种全新的数学研究方法———拓扑数据分析(topologicaldataanalysis)来了解数据的特征。

医疗行业的大数据不仅量大,而且繁杂,其中蕴涵的信息价值也是丰富且多样。

英特尔全球医疗解决方案架构师吴闻新等人也预测了医疗行业数据的增长之快,特别是影像数据和EMR电子病历数据。

英特尔协助用友医疗进展了合理的架构分析和指导,对于基于大数据分析的解决方案进展了深入的探索和研究,并且制定了基于英特尔大数据解决方案的区域卫生数据中心建立目标:

文档快速检索,存储模式满足数据模式的更新,透明化扩展容量和性能。

美国俄亥俄州运输部(ODOT)利用INRIX的云计算分析处理大数据来了解和处理恶劣天气的道路状况,减少了冬季连环撞车发生的概率,方便了人们的出行。

在能源行业,SaaS型软件公司Opower使用数据分析提供消费用电的能效。

2021年11月6日,美国总统奥巴马成功击败对手罗姆尼再次赢得美国总统,奥巴马总统获胜的秘密———通过大数据系统进展数据挖掘,用科学的方法指定策略,它帮助奥巴马在获取有效选民、投放广告、募集资金等方面起到了很大的作用。

与国外相比,国大数据的研究和应用还处在起步阶段。

2021年5月,香山科学会议组织了以“大数据科学与工程———一门新兴的穿插学科〞为主题的会议,深入讨论了大数据的理论与工程数据研究、应用方向,指出目前最重视的都是大数据分析算法和大数据系统效率,通过研究大数据的关系网络整体而全面地研究大数据。

同年6月,中国计算机学会青年计算机科技论坛(CCFYOCSEF)举办了“大数据时代,智谋未来〞学术报告会,就大数据时代的数据挖掘、体系架构理论、大数据平安、大数据平台开发与大数据现实案例进展了全面的讨论。

随着大数据时代的到来,油田勘探开发过程中也产生了规模巨大、类型多样的数据。

计算机集群上构建油田勘探开发一体化数据管理模型和数据根底架构,从而解决油田实际应用中所面临的大数据问题,即穿插复用、信息可见、信息传承中构建的数据模型及其接口,专业分析软件可以很容易地获得本研究区域齐、全、准的勘探开发信息,从而进展分析,部署勘探开发生产任务。

以部署探井为例,分析软件可以利用“大数据〞接口非常方便地获得探井区域的地震剖面、测井曲线、层位、断层等信息。

商务管理、大城市亟待解决的交通问题进展相关的研究和实验,应用实例说明,在营销策略的制定、智能化的交通管理方面都得益于大数据的分析。

如果在国能够搭建一个大数据共享平台,经过预处理,抽取和集成的数据可通过相关的平台交换和共享,让大数据处理更便捷、更快速、更贴近用户、更容易去实现或者去操作,那么也就实现了数据的流通,数据才会更加有生命力,使用价值也会增值。

对大数据的处理和应用,其核心还是需要从业务层面进展科学规划。

大数据的处理工具与技术

从大数据比拟有影响力的概念和大数据的研究现状来看,推动大数据开展的核心力量之一就是大数据的分析处理工具和技术。

因为传统的数据分析处理技术已经无法满足大数据的需求,大数据的出现也必然伴随着新的处理工具和新技术的出现。

大数据的处理工具大数据处理技术的不断更新也促使了大数据处理工具的出现。

在大数据的处理平台中,大家最熟悉的莫过于Apache的Hadoop的块处理平台,Hadoop主要是基于MapReduce编程框架和HDFS。

HPCC(highperform-anceputingcluster)系统也是一种开源的分布式密集数据处理平台,主要有以下组件:

Thor(HPCCdatarefinerycluster)主要是作为一个能够并行处理跨节点的分布式文件系统进展工作,主要负责大量数据的接收、传输、连接和检索工作,对数据进展整合;b)Roxie(HPCCdatadeliveryengine)提供了大量的高性能的多用户在线查询功能;ECL(enterprisecontrollanguage)是一种适合处理大数据的功能强大的编程语言;d)ECLIDE主要是与ECL配合工作的,用来编码、调试、监控ECL的程序;e)ESP(enterpriseservicesplatform)提供了一个易用的ECL查询接口,一般支持SOAP、XML、和REST等。

Hadapt是一种高性能的自适应分析平台。

由于目前的关系型数据管理系统不能满足海量数据处理的需求,所以需要将数据迁移到分布式数据库来实现大数据处理。

大数据的处理技术

从大数据的处理过程来看,大数据处理的关键技术包括:

大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据平安等)。

基于数据存储的大数据处理技术在大数据处理技术方面,Google起步比拟早,自行开发了GFS,随着开展的需要又不断出现了第二代GFS———Colossus、BigTable[18]和Megastore[18]。

在BigTable和Megastore的根底上诞生了Spanner[18],其功能主要是源于一个用GPS和原子钟实现的时间API,这个API能将数据中心之间的时间同步准确到10ms以。

基于Spanner效劳器,2021年6月,Google研究院就推出被称为F1(faulttolerantdistributedRDBMS)的新型数据库。

微软

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1