大数据的高效特征_精品文档.ppt
《大数据的高效特征_精品文档.ppt》由会员分享,可在线阅读,更多相关《大数据的高效特征_精品文档.ppt(35页珍藏版)》请在冰豆网上搜索。
大数据的高效特征ShanxiUniversity主主要要内内容容第一部分:
大数据处理背景第一部分:
大数据处理背景第三部分:
大数据处理展望第三部分:
大数据处理展望第二部分:
大数据的应用第二部分:
大数据的应用ShanxiUniversity第一部分:
大数据处理背景第一部分:
大数据处理背景3ShanxiUniversityEB什么是大数据?
什么是大数据?
l维基百科维基百科:
大数据是指无法在一定时间内用常规软件工具对其内容进大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
行抓取、管理和处理的数据集合。
lGartnerGartner公司公司:
体量大、快速和多样化的信息资产,需用高效率和创新体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力。
型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力。
大数据大数据=“海量数据海量数据”+“复杂类型的数据复杂类型的数据”ShanxiUniversity大数据大数据5V特征特征VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享内容条目超过25亿个/天,增加数据超过500TB/天ValueVolume价值密度低挖掘大数据的价值类似沙里淘金。
视频监控每天产生24小时的数据,真正有价值的就几秒钟ShanxiUniversity大数据存在于各行各业中大数据存在于各行各业中电子商务金融日志分析国土安全交通控制机械制造社交网络移动互联网智慧医疗科学研究交易分析视频监控ShanxiUniversity用户生成数据用户生成数据DeepWebDeepWeb数据数据多模态内容数据多模态内容数据天文天文气象气象基因基因医学医学经济经济物理物理其他领域其他领域网络与关系数据网络与关系数据大数据涉及诸多不同的领域大数据涉及诸多不同的领域ShanxiUniversity科研价值科研价值19981998年图灵奖得主、数据库技术奠基人年图灵奖得主、数据库技术奠基人JimGrayJimGray认为数据驱动的研认为数据驱动的研究将是第四种科学研究范式究将是第四种科学研究范式”TheFourthParadigm:
Data-IntensiveScientificDiscoveryTheFourthParadigm:
Data-IntensiveScientificDiscovery”大数据已为多个不同学科的研究工作提供了宝贵机遇大数据已为多个不同学科的研究工作提供了宝贵机遇经济价值经济价值麦肯锡全球研究院:
大数据可为世界经济创造巨大价值,提高企业和麦肯锡全球研究院:
大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益公共部门的生产率和竞争力,并为消费者创造巨大的经济利益著名著名GartnerGartner公司:
到公司:
到20152015年,采用大数据和海量信息管理的公司将年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手在各项财务指标上,超过未做准备的竞争对手20%20%工业价值工业价值分析使用:
揭示隐藏其中的信息,例如零售业中对门店销售、地理和分析使用:
揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解社会信息的分析能提升对客户的理解二次开发:
创造出新产品和服务。
例如二次开发:
创造出新产品和服务。
例如FacebookFacebook通过结合大量用户信通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式息,定制出高度个性化的用户体验,并创造出一种新的广告模式社会价值社会价值例如:
例如:
20092009年淘宝网推出淘宝消费者物价指数(年淘宝网推出淘宝消费者物价指数(CPICPI)来反映网络购)来反映网络购物的消费趋势和价格动态物的消费趋势和价格动态其他价值其他价值大数据的价值大数据的价值ShanxiUniversity深网深网挖掘挖掘深空深空探索探索20122012年我国神州年我国神州九号进入太空九号进入太空深海深海探测探测20122012年我国蛟龙号年我国蛟龙号探测水下探测水下70007000米米实现大数据价值的实现大数据价值的深度挖据和高度利用深度挖据和高度利用!
大数据的战略意义大数据的战略意义大数据的深度资源挖掘与价值利用是国家战略大数据的深度资源挖掘与价值利用是国家战略从从深空深空+深海深海深网深网ShanxiUniversity大数据的产业价值大数据的产业价值大大数数据据是是各各行行各各业业面面临临的的共共同同问问题题促进工业与信息产业的促进工业与信息产业的生产效率提升生产效率提升未来产业竞争的未来产业竞争的核心要素核心要素研究共性问题,突破核心技术研究共性问题,突破核心技术ShanxiUniversity大数据的现实需求:
感知现在大数据的现实需求:
感知现在感知现在感知现在:
历史数据与当前:
历史数据与当前数据的融合数据的融合,潜在线索与潜在线索与模式的挖掘模式的挖掘,事件、群体与社会发展事件、群体与社会发展状态的感知状态的感知中国发展指数(物价、环境、健康)中国发展指数(物价、环境、健康)需求:
需求:
掌握现状,如淘宝掌握现状,如淘宝CPICPI、环境指数、环境指数难点:
难点:
PBPB级社会媒体数据,百亿级日志数据,级社会媒体数据,百亿级日志数据,结构与非结构数据关联,结构与非结构数据关联,历史与流式数据并存历史与流式数据并存犯罪线索挖掘犯罪线索挖掘需求:
需求:
发现线索发现线索,如罪犯行为轨迹如罪犯行为轨迹难点:
难点:
PBPB级日志数据、级日志数据、EBEB级监控数据中级监控数据中发现嫌疑人及其行为模式犹如发现嫌疑人及其行为模式犹如大海捞针大海捞针问题与挑战:
问题与挑战:
数据数据规模巨大、模态规模巨大、模态多样多样、关联复杂关联复杂、真伪难真伪难辨辨现有数据处理方法现有数据处理方法感知度量难、特征融合难感知度量难、特征融合难、模式挖掘难模式挖掘难ShanxiUniversity联合国联合国“全球脉动全球脉动”(GlobalPulse):
(GlobalPulse):
利用网络大数据预测失业率与疾病爆发利用网络大数据预测失业率与疾病爆发等现等现象,利用数字化的早期预警信号来提前指导象,利用数字化的早期预警信号来提前指导援助项目。
援助项目。
问题与挑战:
问题与挑战:
数据数据交互性强、实时性强交互性强、实时性强、动态演变、动态演变,导致传统数据,导致传统数据计算方法:
计算方法:
数据生命周期的割裂、时效性数据生命周期的割裂、时效性与准确与准确性难以兼顾、演变趋势难以预测性难以兼顾、演变趋势难以预测基于基于TwitterTwitter数据的选举结果预测数据的选举结果预测:
通过对通过对TwitterTwitter等网上公开数据的实时感知、动等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选态获取与综合分析,结合仿真调控,预测大选结果。
结果。
预测未来:
预测未来:
全量数据、流式数据、离线数据全量数据、流式数据、离线数据的关联分析,的关联分析,态势与效应态势与效应的判定与调控,的判定与调控,揭示事物发展的揭示事物发展的演变规律演变规律,进而,进而对事物发展趋势进行预测对事物发展趋势进行预测大数据的现实需求:
预测未来大数据的现实需求:
预测未来ShanxiUniversity马云的判断来自于数据分析!
马云对未来的预测,是建立在对用户行为分析的基础上。
通常而言,买家在采购商品前,会比较多家供应商的产品。
这些,反应到阿里巴巴网站的统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。
因为数据样本巨大,所以保证了用户行为模型的准确性。
大数据分析案例(阿里巴巴)大数据分析案例(阿里巴巴)马云成功预测2008年经济危机。
2008年初,阿里巴巴发现“淘宝网”等平台上买家整体询盘数急剧下滑,欧美对中国采购在下滑,因此判定世界贸易形势发生了变化,并提前半年向淘宝网商户发出“过冬”预警。
ShanxiUniversity经费预算经费预算Google精确掌握用户行为、获取需求、预测未来!
大数据分析案例(大数据分析案例(Google)用户在免费使用Google软件产品的同时,把个人的行为、喜好等信息也免费的送给了Google。
因此Google的产品线越丰富,对用户的理解也越深入,他的广告就越精准,价值就越高。
基于用户搜索信息,2009年Google成功预测美国甲型H1N1爆发,2013年1月准确判定美国流感活动等级为“强烈”。
ShanxiUniversity美国美国大数据研发专项研究计划(大数据研发专项研究计划(2012年年3月)月)日本日本大数据发展国家战略(大数据发展国家战略(2012年年7月)月)英国英国大数据和节能计算技术方案(大数据和节能计算技术方案(2013年年1月)月)中国中国“大数据大数据”香山会议(香山会议(2012年年5月)月)大数据列入大数据列入973、重点基金项目指南、重点基金项目指南(2013年)年)北京北京中关村大数据产业联盟(中关村大数据产业联盟(2012年)年)广东广东大数据战略工作方案(大数据战略工作方案(2012年年12月)月)上海上海大数据研究与发展三年行动计划(大数据研究与发展三年行动计划(2013年年7月月)大数据体现国家意志和地方战略大数据体现国家意志和地方战略ShanxiUniversity2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“BigDataResearchandDevelopmentInitiative”促进采集、存储、维护、管理、分析和共享海量数据的核心技术;利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术的人力资源。
CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA美国的大数据计划美国的大数据计划大数据上升为国家意志大数据上升为国家意志ShanxiUniversity17Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大数据的数据信息化基础设施(E-Infrastructure)是优先资助领域GRDI2020-GlobalResearchDataInfrastructures建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合FP7Call8IntelligentInformationManagement-BigData预算5千万欧元,2012-1-17截止目标:
提升发现、分析、开采、使用大数据及其基础设施的能力通过对大数据收集与分析创造更大价值探索基于大规模互联数据资源与专用基础设施的新型科学研究面向大数据的人力资源开发欧盟的大数据规划欧盟的大数据规划基础设施是先导基础设施是先导ShanxiUniversity学术界对大数据的关注学术界对大数据的关注n20122012年年11月,月,NaturePhysicsNaturePhysics上出版专刊上出版专刊“ComplexityComplexity”q特别指出大数据为科学研究,特别是复杂性科学的研特别指出大数据为科