ImageVerifierCode 换一换
格式:PPTX , 页数:61 ,大小:12.96MB ,
资源ID:1018289      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/1018289.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据技术与应用最全ppt课件.pptx)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据技术与应用最全ppt课件.pptx

1、大数据技术与应用,目录,引言 电影点球成金,基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;,打破传统思维,通过分析比赛数据,寻找“性价比”最高球员,运用数据取得成功;,布拉德皮特主演的点球成金是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。,数据本质是生产资料和资产,仅供开采162年,仅供开采45年,仅供开采60年,不可再生资源VS数据,数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。,数据爆炸式增长(每分钟),数据资产

2、管理的挑战,数据资产管理的挑战,需要不同“看”数据的方式,7,可视:结构化资料 15%,未视:半/非结构化数据 85%,DB/DW,主管们看的战情数位仪表板,其实是残缺的,10万 GB,10万 TB,需要更高性价比的数据计算与储存方式,8,数据库,数据仓库,计算更快 存储更省,9,需要不同的数据管理策略,当我们想要扩充时,才发觉:架构只能 scale-up,scale-out 不易处理时间过长,time-to-value 受限成本过高,cost-efficiency 受限,15%结构化的 DB/DW,遗憾,残缺,每天几百 GB、几 TB 的资料,且持续成长中,储存Storing,在收数据的同时

3、做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing),计算Processing,如何有效的避免因硬件毁坏所导致的资料损毁,管理Managing,如何从中挖掘出所关注事件的 pattern 或 behavior,分析Analyzing,超越企业现有 IT 的数据解决能量,10,中央政府对大数据的重视程度,11,目录,二、什么是大数据,一、大数据的来源,13,Social Media,Machine/Sensor,DOC/Media,Web Clickstream,Apps,Call Log,Log,什么是数据?,半结构化/非结构化数据,3/13/

4、2012,4,什么是大数据?,何为大?数据度量1Byte=8 Bit1KB=1,024 Bytes1MB=1,024 KB=1,048,576 Bytes1GB=1,024 MB=1,048,576 KB=1,073,741,824 Bytes1TB=1,024 GB=1,048,576 MB=1,099,511,627,776 Bytes1PB=1,024 TB=1,048,576 GB=1,125,899,906,842,624 Bytes1EB=1,024 PB=1,048,576 TB=1,152,921,504,606,846,976 Bytes1ZB=1,024 EB=1,180,

5、591,620,717,411,303,424 Bytes1YB=1,024 ZB=1,208,925,819,614,629,174,706,176 Bytes,3/13/2012,6,什么是大数据?,红楼梦含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB 约等于 671部红楼梦1TB 约等于 631,903 部1PB 约等于 647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)中国国家图书馆:2631万册1EB=4000倍 美国国会图书馆存储的信息量600美元的硬盘就可以存储

6、全世界所有的歌曲MGI估计,全球企业 2010 年在硬盘上存储了超过 7EB(1EB 等于 10 亿 GB)的新数据,同时,消费者在 PC 和笔记本等设备上存储了超过 6EB 新数据,3/13/2012,7,数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务,什么是大数据?,大数据的解释,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。,大数据带来的思维变革,更好不是因果关系而是相关关系,更多不是随机样本而是全部数据,更杂不是精确性而是混杂性,大数据带来的思维变革(更多),人口大普查全数据模式

7、,随机采样样本模式,大数据应用全数据模式,是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记;主要特点是调查组织高度集中性,普查对象的全面完整性;人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查;人口大普查是一种典型的全数据模式;,大数据时代,小数据时代,大数据带来的思维变革(更多),人口大普查全数据模式,随机采样样本模式,大数据应用全数据模式,人口大普查是一种耗时耗费的工程,一般是以十年为单位;各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;源于实

8、用并且很好的创新!随机采样分析是小数据时代的产物;,大数据时代,小数据时代,大数据带来的思维变革(更多),人口大普查全数据模式,随机采样样本模式,大数据应用全数据模式,我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部;大数据不用随机分析法这样的捷径,而采用所有数据的方法;这里的“大”是相对的相扑比赛所有数据存储还不需要一个TB,但是是所有的数据!在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;,大数据时代,小数据时代,大数据带来的思维变革(更多),大数据带来的思维变革(更杂),从皮尺到哈勃望远镜,人类一

9、直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;,大数据的简单算法比小数据的复杂算法更有效;IBM的机器翻译 VS Google的机器翻译;纷繁的数据越多越好;大数据时代要求我们重新审视数据精确性的优略;大数据不仅让我们不再期待精确性,也让我们无法实现精确性;错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;混杂性,不是竭力避免,而是标准途径;,大数据带来的思维变革(更好),Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?探寻事物的因果关系是人

10、类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”,大数据的4V特征,Big Data大数据,TBPBEB,StreamsReal timeNear timeBatch,StructuredUnstructured Semi-structuredAll the above,大数据的4V特征(Volume),1Bity,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,大数据的4V特征(Velocity),大数据的4V特征(Variety),大数据的4V特征(Value),挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;价值密

11、度低,是大数据的一个典型特征;,大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体,13,大数据商业价值,大数据商业价值-大数据为“未来的新石油”,31,2013年,世界上存储的数据预计能达到约1.2泽(约12亿TB)字节,如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。,大数据商业价值-企业经营决策,32,某商店卖牛奶,通过数据分析,知道在本店买

12、了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。,大数据商业价值-个性化营销,33,银行与客户的交流渠道进行了整合,只要某个客户在网上点击查询了有关房贷利率的信息,系统就会提示呼叫中心在电话交流时推荐房贷产品,如果发现顾客确实对此感兴趣,销售部门就会发送推介信息给客户,如果这位顾客到银行网点办事,业务人员就会详细介绍房贷产品,开始只有少量的线索,但通过多渠道的与顾客交互接触,在这个过程中,令顾客体验了银行精准、体贴的服务,其结果是营业收入大为增加,成本大幅降低,,大数据商业价值-互联网金融的核心是大数据,34,互联网金融并非简单的把传

13、统金融业务搬到网上去,而是充分利用大数据来颠覆银企之间信息不对称的问题。数据是一个平台,因为数据是新产品和新商业模式的基石。推动互联网金融发展的核心正是大数据的价值。,大数据商业价值-所有互联网公司都将是大数据公司,35,大数据商业价值-数据列入企业资产负债表只是时间问题,36,用资产的要素来盘点一下什么样的数据符合资产的要求:1,从拥有和控制的角度来看,数据可以分为第一方数据、第二方数据和第三方数据。2,对于数据资产的货币计量,可以参照无形资产的计量规则。3,目前直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。4,要实现数据的保值增值,就要从扩大数据规模,提高

14、数据活性,提升收集运用数据的能力,大数据改变生活,37,。,大数据对政府、金融机构、企业来说,象空气一样不可或缺!,软件是大数据的引擎,和数据中心(Data Center)一样,软件是大数据的驱动力.软件改变世界!,IBM C&P Industry,需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术,描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索,技术Hadoop,x86/MPPMap ReduceStreaming DataInfini BandEnterpriseSearch,数据分析技术,Text Analytics Engine 自然语言处理、

15、文本情感分析、Visual Data Modeling 机器学习、聚类关联、数据模型第 10 页,大数据涉及的关键技术,基于SQL语言:面对OLAP的传统行和列,不基于SQL或map-reduce的:由谷歌率先发起,数据流:基于运行商数据直接生成任意图形,数据入口/汇聚,数据平台,分析,传统交付模式-单片或基于设备的解决方案,云:能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-Forrester analyst Jim Kobielus,大数据涉及的关键技术,Copyright 2012,Oracle and/or

16、its affiliates.All rights reserved.,11,大数据涉及的关键技术,大数据的安全威胁,大数据基础设施安全威胁,大数据存储安全威胁,隐私泄露问题,数据访问安全威胁,针对大数据的高级持续性攻击,其他安全威胁,大数据挑战,目录,三、大数据的应用,一、大数据的来源,大数据业务战略,大数据建设目标,大数据架构设计,大数据实施,大数据运维,企业战略目标业务目标业务模式,大数据目标服务对象服务模式应用场景,大数据服务定义大数据信息模型大数据管理定义技术选择,容量规划安装、配置验收测试系统上线,大数据服务管理系统监控资源调度生命周期管理,服务性能管理,验证测试大数据持续改进,架构优化,技术升级,服务改进,企业大数据建设方法,逐步扩展现有架构,满足大数据要求:第 1 步:更深入地分析当前数据第 2 步:针对数据多样性和数据量进行设计第 3 步:针对高数据速度设计第 4 步:发现新模式,提高,业务价值,企业大数据建设方法,信息分析,信息供应,(In-Database),数据挖掘,文本挖掘,统计分析,语义分析,空间地理分析,In-DB,MapReduce,说明性分析预测分析,

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1