ImageVerifierCode 换一换
格式:DOCX , 页数:6 ,大小:23.92KB ,
资源ID:3067738      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3067738.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据研究报告综述.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据研究报告综述.docx

1、大数据研究报告综述大数据研究综述摘要:从大数据根本理论,大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,重点比拟当前大数据处理工具的优缺点,并深入归纳总结了基于数据存储大数据处理技术,对未来研究进展展望。关键词:大数据,综述,数据处理,数据挖掘引言现代社会提到大数据大家都知道这是近几年才形成的对于数据相关的新名词,在1980年,著名未来学家阿尔文托夫勒便在?第三次浪潮?一书中,将大数据热情地赞颂为“第三次浪潮的乐章。在 20 世纪 80 年代我国已经有一些专家学者谈到了海量数据的加工和管理,但是由于计算机技术和网络技术的限制大数据未能引起足够的重视,它蕴藏的巨大信息资源也暂时

2、隐藏了起来。随着云计算技术的开展,互联网的应用越来越广泛,以微博和博客为代表的新型社交网络的出现和快速开展,以及以智能手机、平板电脑为代表的新型移动设备的出现,计算机应用产生的数据量呈现了爆炸性增长的趋势。2021年末出版的?大数据时代?的作者英国牛津大学网络学院互联网研究所治理与监管专业教授维克托尔耶舍恩伯格在书的引言中说,大数据正在改变人们的生活以及理解世界的方式,而更多的改变正蓄势待发。美国总统奥巴马的成功竞选及连任的背后都有大数据挖掘的支撑,美国政府认为,大数据是“未来的新石油,并将对大数据的研究上升为国家意志,这对未来的科技与经济开展必将带来深远影响1。如今,大数据已成为一项业务上优

3、先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。大数据的应用围如此广泛,与大数据相关的很多问题都引起了专家和学者的重视。大数据最根本的问题-大数据的定义目前还没有一个统一的定论,但大数据作为一种根底性资源需要被处理才能显现其潜在的价值,那么如何更好地处理大数据这种根底性资源就显得特别重要,因为这些问题都关系到大数据核心价值的表达。为此,本文从大数据假设干个版本的概念出发,调查分析了大数据的研究和应用现状,重点分析了当前主流的大数据处理工具和技术,最后预测了大数据未来的几个研究和开展方向。大数据的概念从学术上来讲,大数据一次最贴切的概念最早出现在2021?Nature?杂志所

4、设立的“Big Data专刊中,该专刊所发表的文章分别从互联网,数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战。2021 年?Science?杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间用目前的技术、方法和理论去获取、管理、处理的数据2。比拟有影响力的 Gartner 公司也给出了大数据的定义3,大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化。这种定义不仅是数据规模大,更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效性价值的信息,但是这些数据类型众多,构

5、造化、半构造化、非构造化的数据对已有的数据处理模式带来了巨大的挑战,其中也表达了大数据在 3V 根底上开展的4V定义。4V定义即 volume,variety,velocity,value,关于第 4个V的说法并不统一,国际数据公司( International Data Corporation, IDC) 认为大数据还应当具有价值性( value) 4,大数据的价值往往呈现出稀疏性的特点; 而 IBM 认为大数据必然具有真实性( veracity) 5,这样有利于建立一种信任机制,有利于领导者的决策。XX百科对大数据的定义是: 大数据( big data) ,或称巨量资料,指的是所涉及的资料

6、量规模巨大到无法透过目前主流软件工具,在合理时间到达撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的科学家auser 提到一个简单的定义: 大数据就是超过了任何一个计算机处理能力的庞大数据量。大数据的研究与应用现状虽然大数据的概念没有一个统一的定论,但这对于大数据的研究而言并不是最重要的,如何使用大数据才是关键。研究大数据其实也就是为了更好地应用大数据,所以国外对大数据的研究与应用都相当重视。事实上,大数据的研究与应用已经在互联网、商业智能、咨询与效劳以及医疗效劳、零售业、金融业、通信等行业显现,并产生了巨大的社会价值和产业空间。来自麦肯锡 2021 年大数据报告中的一组数

7、据显示,大数据产业为美国医疗系统带来每年 3000 亿美元的收益; 为欧洲公共管理部门带来 2500 亿欧元的收益; 为零售业增加 60% 的净利润; 为制造业减少 50% 的产品研发等本钱。而 Canner 认为, 2021 年超过 85% 的财富 500强企业将在大数据竞争中失去优势。据市场调研机构 IDC 预测,大数据技术与效劳市场将从 2021年的 32 亿美元攀升到 2021 年的 169 亿美元,实现 40% 的年增长率( IT 与通信产业增长率的 7 倍) 7。从上面的统计数据很容易看出大数据的应用之广,价值之大。国外的大数据研究工作主要集中在如何进展大数据存储、处理、分析以及管

8、理的技术及软件应用上。在学术界,?Nature?早在 2021 年就推出了“big data专刊,从互联网技术、超级计算、生物医学等方面来专门探讨对大数据的研究。2021 年 3 月,美国公布了旨在提高和改良人们从海量信息数据中获取信息能力的“大数据研发方案1。2021 年 4 月欧洲信息学与数学研究协会会刊?ECIM News?出版专刊“big data,讨论了大数据时代的数据管理、数据密集型研究的创新技术等问题。2021 年 7 月,日本推出“新 ICT 战略研究方案,其中重点关注大数据应用,将大数据定位为战略领域之一。在具体的实际应用方面,大数据也显现出了它的价值所在。谷歌公司通过对人们

9、在网上检索的词条与疾病中心的数据进展分析处理,有效及时地判断出了流感的传播来源,为公共卫生机构提供了有价值的信息,这是来自 2021 年?Science?杂志上发表的一篇论文。乔布斯通过大数据辅助癌症治疗,丹麦癌症协会通过大数据研究手机是否致癌等。美国最大的西奈山医疗中心( Mount Sinai Meddical Center) 使用来自大数据创业公司 Ayasdi 的技术分析大肠杆菌的全部基因序列,包括超过 100 万个 DNA 变体,来了解为什么菌株会对抗生素产生抗药性。Ayasdi 的技术使用了一种全新的数学研究方法拓扑数据分析( topological data analysis)

10、来了解数据的特征。医疗行业的大数据不仅量大,而且繁杂,其中蕴涵的信息价值也是丰富且多样。英特尔全球医疗解决方案架构师吴闻新等人也预测了医疗行业数据的增长之快,特别是影像数据和 EM电子病历数据。英特尔协助用友医疗进展了合理的架构分析和指导,对于基于大数据分析的解决方案进展了深入的探索和研究,并且制定了基于英特尔大数据解决方案的区域卫生数据中心建立目标: 文档快速检索,存储模式满足数据模式的更新,透明化扩展容量和性能。美国俄亥俄州运输部( ODOT) 利用 INIX 的云计算分析处理大数据来了解和处理恶劣天气的道路状况,减少了冬季连环撞车发生的概率,方便了人们的出行。在能源行业,SaaS 型软件

11、公司 Opower 使用数据分析提供消费用电的能效。2021 年 11 月 6 日,美国总统奥巴马成功击败对手罗姆尼再次赢得美国总统,奥巴马总统获胜的秘密通过大数据系统进展数据挖掘,用科学的方法指定策略,它帮助奥巴马在获取有效选民、投放广告、募集资金等方面起到了很大的作用。与国外相比,国大数据的研究和应用还处在起步阶段。 2021 年 5 月,香山科学会议组织了以“大数据科学与工程 一门新兴的穿插学科为主题的会议,深入讨论了大数据的理论与工程数据研究、应用方向,指出目前最重视的都是大数据分析算法和大数据系统效率,通过研究大数据的关系网络整体而全面地研究大数据。同年 6 月,中国计算机学会青年计

12、算机科技论坛( CCF YOCSEF) 举办了“大数据时代,智谋未来学术报告会,就大数据时代的数据挖掘、体系架构理论、大数据平安、大数据平台开发与大数据现实案例进展了全面的讨论。随着大数据时代的到来,油田勘探开发过程中也产生了规模巨大、类型多样的数据。计算机集群上构建油田勘探开发一体化数据管理模型和数据根底架构,从而解决油田实际应用中所面临的大数据问题,即穿插复用、信息可见、信息传承中构建的数据模型及其接口,专业分析软件可以很容易地获得本研究区域齐、全、准的勘探开发信息,从而进展分析,部署勘探开发生产任务。以部署探井为例,分析软件可以利用“大数据接口非常方便地获得探井区域的地震剖面、测井曲线、

13、层位、断层等信息。商务管理、大城市亟待解决的交通问题进展相关的研究和实验,应用实例说明,在营销策略的制定、智能化的交通管理方面都得益于大数据的分析。如果在国能够搭建一个大数据共享平台,经过预处理,抽取和集成的数据可通过相关的平台交换和共享,让大数据处理更便捷、更快速、更贴近用户、更容易去实现或者去操作,那么也就实现了数据的流通,数据才会更加有生命力,使用价值也会增值。对大数据的处理和应用,其核心还是需要从业务层面进展科学规划。大数据的处理工具与技术从大数据比拟有影响力的概念和大数据的研究现状来看,推动大数据开展的核心力量之一就是大数据的分析处理工具和技术。因为传统的数据分析处理技术已经无法满足

14、大数据的需求,大数据的出现也必然伴随着新的处理工具和新技术的出现。大数据的处理工具大数据处理技术的不断更新也促使了大数据处理工具的出现。在大数据的处理平台中,大家最熟悉的莫过于 Apache 的 Hadoop 的块处理平台,Hadoop 主要是基于 Mapeduce编程框架和 HDFS。HPCC ( high perform-ance puting cluster)系统也是一种开源的分布式密集数据处理平台,主要有以下组件: Thor( HPCC data refinery cluster) 主要是作为一个能够并行处理跨节点的分布式文件系统进展工作,主要负责大量数据的接收、传输、连接和检索工作,

15、对数据进展整合; b) oxie( HPCC data delivery engine) 提供了大量的高性能的多用户在线查询功能; ECL( enterprise control language ) 是一种适合处理大数据的功能强大的编程语言; d) ECL IDE 主要是与 ECL 配合工作的,用来编码、调试、监控 ECL 的程序; e) ESP ( enterprise services platform) 提供了一个易用的 ECL 查询接口,一般支持 SOAP、XML、 和EST 等。Hadapt是一种高性能的自适应分析平台。由于目前的关系型数据管理系统不能满足海量数据处理的需求,所以需

16、要将数据迁移到分布式数据库来实现大数据处理。大数据的处理技术从大数据的处理过程来看,大数据处理的关键技术包括: 大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用( 大数据检索、大数据可视化、大数据应用、大数据平安等) 。基于数据存储的大数据处理技术在大数据处理技术方面,Google 起步比拟早,自行开发了 GFS,随着开展的需要又不断出现了第二代 GFSColossus、 BigTable18和 Megastore18。在 BigTable 和 Megastore 的根底上诞生了 Spanner18,其功能主要是源于一个用 GPS 和原子钟实现的时间 API,这个 API 能将数据中心之间的时间同步准确到 10 ms 以。基于 Spanner 效劳器,2021 年 6 月,Google 研究院就推出被称为 F1( fault tolerant distributed DBMS) 的新型数据库。微软

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1