大数据技术介绍.pdf

上传人:b****1 文档编号:3209471 上传时间:2022-11-20 格式:PDF 页数:56 大小:3.94MB
下载 相关 举报
大数据技术介绍.pdf_第1页
第1页 / 共56页
大数据技术介绍.pdf_第2页
第2页 / 共56页
大数据技术介绍.pdf_第3页
第3页 / 共56页
大数据技术介绍.pdf_第4页
第4页 / 共56页
大数据技术介绍.pdf_第5页
第5页 / 共56页
点击查看更多>>
下载资源
资源描述

大数据技术介绍.pdf

《大数据技术介绍.pdf》由会员分享,可在线阅读,更多相关《大数据技术介绍.pdf(56页珍藏版)》请在冰豆网上搜索。

大数据技术介绍.pdf

大数据技术介绍大数据概述01大数据领域的关键技术02大数据行业状况与典型应用03大数据产业的未来发展趋势04目录CONTENT1大数据概述PARTONE大数据发展的背景大数据的定义大数据的特点大数据面临的问题CustomerCustomer在络上消费272070美元(双呵呵笑)WebsiteWebsite571个新站建立GoogleGoogle接受超过2000000次查询AppStoreAppStoreAPP被下载47000次FlickrFlickr用户新增用户新增31253125张照片张照片UserUser217名移动络新用户诞WordpressWordpress用户发表用户发表347347篇章篇章EmailEmail使用者寄送204166667封邮件InstagramInstagram用户分享3600张照片FacebookFacebook使用者上传700000条内容YouTubeYouTube使用者上传使用者上传4848小时影片小时影片TwitterTwitter使用者发出超过使用者发出超过100000100000条内容条内容11分钟分钟1.1大数据发展的背景

(1)数据爆炸伴随着伴随着互联、物联、电商务、互联、物联、电商务、社交媒体、社交媒体、现代物流、络融现代物流、络融等业的发展,全球数等业的发展,全球数据总量正呈何级数增长,过去年时间产的数据总量超过了类历史上的数据总和,预据总量正呈何级数增长,过去年时间产的数据总量超过了类历史上的数据总和,预计计20202020年全球数据总量将达到年全球数据总量将达到35.2ZB35.2ZB,类将进“泽它”(,类将进“泽它”(ZBZB)时代()时代(1ZB=1ZB=万亿亿字节)万亿亿字节)淘宝淘宝每天每天产生的数据超过产生的数据超过50TB百度百度拥有的数据总量超过拥有的数据总量超过100PBFacebook每天每天产生的数据超过产生的数据超过100TB纽约证券交易所纽约证券交易所每天每天产生产生1TB的交易数据的交易数据Twitter每天每天产生产生7TB的数据的数据欧洲欧洲物理物理实验室大实验室大型例子型例子对撞机对撞机每年每年产生产生15PB的数据的数据1.1大数据发展的背景

(2)感知化、物联化、智能化感知化:

指数据源的变化。

传感器、感知化:

指数据源的变化。

传感器、RFIDRFID标标签、芯片、摄像头遍布世界的各个角落,物理签、芯片、摄像头遍布世界的各个角落,物理世界中原本不能被感知的事物现在可以被感知,世界中原本不能被感知的事物现在可以被感知,它们通过各种技术被接了互联世界。

它们通过各种技术被接了互联世界。

物联化:

指的是数据传送式的变化。

继与物联化:

指的是数据传送式的变化。

继与、与机器的互联后,机器与机器之间的互、与机器的互联后,机器与机器之间的互联成为当下的发展趋势。

未来数据可能来自于联成为当下的发展趋势。

未来数据可能来自于自车、电器、道路、自来管,甚是食物自车、电器、道路、自来管,甚是食物的包装盒。

的包装盒。

智能化:

指的是数据使用式的变化。

“没有智能化:

指的是数据使用式的变化。

“没有解释就没有价值”。

感知和互联并不是最终的解释就没有价值”。

感知和互联并不是最终的目的,数据只有经处理、分析和计算,从中提目的,数据只有经处理、分析和计算,从中提取出有价值的东西,才能实现真正的价值。

取出有价值的东西,才能实现真正的价值。

1.1大数据发展的背景(3)大数据在各领域应用中逐渐崭露头角大数据增大数据增强社会服务能力强社会服务能力洛杉洛杉矶智能交通矶智能交通(ATSAC,用感,用感应器收集车应器收集车速、流量等信息,速、流量等信息,实时处理)实时处理)大数据支持政大数据支持政务活动务活动奥巴奥巴马竞选中的民意预测马竞选中的民意预测(存(存储和分析选民资料、储和分析选民资料、筹集筹集资金、投放广告)资金、投放广告)大数据大数据驱动业务发展驱动业务发展Netflix精心打造精心打造纸牌屋纸牌屋(Cinematch,AWS)大数据提高商大数据提高商业决策水平业决策水平USXpress的物流运的物流运输输(用大数据分析(用大数据分析车辆状况,车辆状况,对车辆人员进行合理调度)对车辆人员进行合理调度)传统的面向应用的开发模传统的面向应用的开发模式逐式逐渐被数据驱动渐被数据驱动(DDD)的模式。

大数)的模式。

大数据引据引发了商业、科研、政发了商业、科研、政务、社会服务等领域的深务、社会服务等领域的深刻刻变革变革1.1大数据发展的背景(4)大数据成为各界争相鼓吹的概念发布发布白皮白皮书书大数据促大数据促发展:

挑战与机遇发展:

挑战与机遇联合国联合国发布报告发布报告大数据,大影响大数据,大影响达沃斯达沃斯论坛论坛发布发布BigData专刊,请研究人员和企专刊,请研究人员和企业家预测大数据所带来的革新业家预测大数据所带来的革新Nature投投资两亿美元启动资两亿美元启动“大数据研究和大数据研究和发发展展计划计划”奥巴奥巴马政府马政府发布发布大数据:

大数据:

创新、竞争力和生产创新、竞争力和生产力的下一个前沿力的下一个前沿,对大数据的影响对大数据的影响关关键技术和应用领域进行了详细分析键技术和应用领域进行了详细分析麦肯麦肯锡锡2008.092011.052012.012012.032012.071.2大数据的定义麦肯锡麦肯锡:

数据是指小超出常规的数据库:

数据是指小超出常规的数据库具获取、存储、管理和分析能的数据集。

具获取、存储、管理和分析能的数据集。

(并不是说定要超过特定(并不是说定要超过特定TBTB的数据集才能算的数据集才能算数据)数据)维基百科维基百科:

数据指的是所涉及的资料量规模:

数据指的是所涉及的资料量规模巨到法透过目前主流软件具,在合理时巨到法透过目前主流软件具,在合理时间达到获取、管理、处理,并整理成帮助企业间达到获取、管理、处理,并整理成帮助企业经营决策更积极目的的资讯。

经营决策更积极目的的资讯。

GartnerGartner公司公司:

数据是需要新护理模式才:

数据是需要新护理模式才能具有更强的决策、洞察发现和流程能具有更强的决策、洞察发现和流程优化的海量、增长率和多样化的信息资优化的海量、增长率和多样化的信息资产。

产。

美国国家标准技术研究院(美国国家标准技术研究院(NISTNIST):

数据:

数据量、获取速度快或形态多样的数据,难量、获取速度快或形态多样的数据,难以用传统关系型数据分析法进有效分以用传统关系型数据分析法进有效分析,或者需要规模的平扩展才能效析,或者需要规模的平扩展才能效处理。

处理。

国际数据公司(国际数据公司(IDCIDC):

从数据的:

从数据的44个特征来个特征来定义,即海量定义,即海量的数据规模的数据规模(VolumeVolume)、数据、数据处理的快处理的快速性速性(VelocityVelocity)、多样、多样的数据类型的数据类型(VarietyVariety)、数据、数据价值密度低价值密度低(ValueValue),即所谓的),即所谓的4V4V特性特性。

IBMIBM认为数据还应该具有其真实性认为数据还应该具有其真实性(VeracityVeracity)。

1.3大数据的特点Volume(巨量性)(巨量性)数据体量巨大,数据数据体量巨大,数据规模已从规模已从GB到到TB到到PB,甚至开始以,甚至开始以EB和和ZB计数。

计数。

Variety(多(多样性)样性)大数据大数据类型复杂。

大量异构数据,类型复杂。

大量异构数据,多源数据,半多源数据,半结构化数据、非结构结构化数据、非结构化数据大量涌化数据大量涌现现(即(即时性)时性)Velocity数据数据产生、处理和分析速度在持续加产生、处理和分析速度在持续加快,数据流量大,快,数据流量大,处理能力从批处理处理能力从批处理转向流处理转向流处理(高价(高价值、低价值值、低价值密度密度)Value数据体量不断增大,数据体量不断增大,单位数据的价单位数据的价值密度不断降低,而数据的整体价值密度不断降低,而数据的整体价值在提高值在提高1.4大数据面临的问题大数据问题分类大数据问题分类大数据问题描述大数据问题描述速度方面的问题导入导出问题统计分析问题检索查询问题实时响应问题种类及架构问题多源问题异构问题原系统的底层架构问题体量及灵活性问题线性扩展问题动态调度问题成本问题大机与小型服务器的成本对比原有系统改造的成本把控价值挖掘问题数据分析与挖掘问题数据挖掘后的实际增效问题存储及安全问题结构与非结构数据安全隐私安全互联互通与数据共享问题数据标准与接口共享协议访问权限2大数据领域的关键技术PARTTWO传统数据处理到大数据处理数据采集、处理与存储数据理解数据分析与挖掘技术总结大数据处理框架HadoopSpark2.1传统数据处理到大数据处理?

传统数据分析(数据挖掘、利用)的流程2.1传统数据处理到大数据处理?

2.1传统数据处理到大数据处理大数据是旧瓶子装了新酒;旧瓶子是原有的数据分析的框架;那么新酒是什么?

2.1传统数据处理到大数据处理从4V的角度看“新酒”?

数据采集、处理与存储数据采集2.1传统数据处理到大数据处理数据采集、处理与存储数据采集问题数据类型:

网络日志、视频、图片、GPS、物联网等类型复杂数据速度:

采集速度快数据规模:

体量庞大,传统数据库、ETL难以处理。

2.1传统数据处理到大数据处理数据采集、处理与存储数据采集工具工具(工业领域):

Flume(Cloudera公司)Scribe(Facebook)Kafka(领英)TimeTunnel(淘宝)2.1传统数据处理到大数据处理数据采集、处理与存储数据采集Flume三类节点:

Master(管理节点)Collector、Agent(日志收集节点,Agent用于采集数据,Collector汇总多个Agent的数据然后加载到存储系统)一个概念:

DataFlow,即数据传输管道,描述了日志数据从产生到最终目的地的数据传送过程。

首先指定一个数据源(Source)和数据汇聚点(Sink)。

数据在此间传输。

来源:

flume.apache.org2.1传统数据处理到大数据处理数据采集、处理与存储数据采集Flume可靠性节点故障时,数据被传送到其他节点可扩展性每层节点均可以扩展可管理性Master进行管理功能扩展性根据自己的需求天添加三类节点2.1传统数据处理到大数据处理数据采集、处理与存储数据处理变化不大,Python、R、Ruby、C、Perl等。

2.1传统数据处理到大数据处理数据采集、处理与存储数据存储数据类型:

网络日志、视频、图片、GPS、物联网等类型复杂;数据规模:

体量庞大,传统数据库、数据仓库那一存储;数据模式:

变化多样,传统关系型数据库难以满足。

关系型数据库(ACID)、DW分布式关系型数据库(海量结构化数据)+分布式文件系统(海量非结构化数据)+NoSQL(海量非结构化数据)2.1传统数据处理到大数据处理数据采集、处理与存储数据存储分布式文件系统CAP原理:

C:

ConsistencyA:

AvailabilityP:

PartitiontoleranceHDFS(HadoopDistributedFileSystem)Lustre(开源的,基于对象存储技术的集群并行文件系统,特点:

大规模、安全可靠,高可用性)GFS(谷歌文件系统,大规模分布式数据,可扩展的分布式文件系统)图片来源:

http:

/Cabinet/TyrantBerkeleyDBMemcacheDBRedis可以通过key快速查询到其value。

一般来说,存储不管value的格式,照单全收。

(Redis包含了其他功能)图存储Neo4JFlockDB图形关系的最佳存储。

使用传统关系数据库来解决的话性能低下,而且设计使用不方便。

对象存储db4oVersant通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。

xml数据库BerkeleyDBXMLBaseX高效的存储XML数据,并支持XML的内部查询语法,比如XQuery,Xpath。

2.1传统数据处理到大数据处理2.1传统数

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1