大数据时代下的数据挖掘.pptx

上传人:b****1 文档编号:1773549 上传时间:2022-10-24 格式:PPTX 页数:33 大小:951.80KB
下载 相关 举报
大数据时代下的数据挖掘.pptx_第1页
第1页 / 共33页
大数据时代下的数据挖掘.pptx_第2页
第2页 / 共33页
大数据时代下的数据挖掘.pptx_第3页
第3页 / 共33页
大数据时代下的数据挖掘.pptx_第4页
第4页 / 共33页
大数据时代下的数据挖掘.pptx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

大数据时代下的数据挖掘.pptx

《大数据时代下的数据挖掘.pptx》由会员分享,可在线阅读,更多相关《大数据时代下的数据挖掘.pptx(33页珍藏版)》请在冰豆网上搜索。

大数据时代下的数据挖掘.pptx

大数据大数据时时代代生活、工作与思生活、工作与思维维的大的大变变革革Living,workingandthnkingbigchanges大数据开启了一次重大的时代转型。

就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发一一场场生活、工作与思生活、工作与思维维的大的大变变革革一一场场生活、工作与思生活、工作与思维维的大的大变变革革1.大数据,变革公共卫生2.大数据,变革商业3.大数据,变革思维4.大数据,开启重大的时代转型5.预测,大数据的核心6.大数据,大挑战第一个是关于公共卫生方面的,在2009年,甲型H1N1流感(就是我们俗称的甲流)在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周。

Google每天会收到来自于全球超过30亿条的搜索指令,其中也包含“咳嗽、发烧、甲流”等方面的搜索引擎,但到底哪些词条更重要需要进行分析,Google处理了5000万条历史记录、4.5亿个不同的数学模型。

在将得出的预测与2007年、2008年美国疾病控制中心的实际流感病例进行对比之后,Google的软件发现了45条检索词条的组合,将这些词条用于一个特定的数学模型后,Google的预测结果与官方的结果相关性达到了97%,这样Google能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。

而且不需要像卫生部门那样发放口腔试纸以及联系医生,大幅度降低了成本。

什么是大数据什么是大数据2009年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周,而Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。

Google处理了5000万条历史记录、4.5亿个不同的数学模型。

季节、航空公司营销策略等众多因素都可能影响机票的价格,Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。

最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。

系统只推测机票的价格何时最便宜,不关心是什么原因导致的价格下降。

该公司已经被微软以1.1亿美元收购,加入到了Bing搜索系统中什么是大数据什么是大数据Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。

最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。

系统只推测机票的价格何时最便宜,不关心是什么原因导致的价格下降。

FarecastBing实时性高,如果Google判断出流感的来源与卫生部门的一样,如果Farecast预测出便宜机票的出售时间已经过期,这样的预测就没有任何意义,只有比传统方式更快得到正确的预测结果才能够体现出大数据的价值。

主要用于预测,目前的大数据领域主要工作方式是通过计算机的强大数据处理能力从海量的数据中找到人们依靠以往经验很难发现和理解的关联,通过这些关联来进行预测。

今后完全有可能从大数据中找到更多的价值。

更关注相关性,即“结果是什么”,至于“为什么会这样”,大数据本身往往并不能给出答案。

大数据的特性大数据的特性大数据的特性更关注相关性主要用于预测数据量巨大实时性要求高大数据大数据时时代的思代的思维变维变革革大数据大数据时时代的商代的商业变业变革革大数据大数据时时代的管理代的管理变变革革一、大数据一、大数据时时代的思代的思维变维变革革一、大数据一、大数据时时代的思代的思维变维变革革更多更多“更多更多”不是随机不是随机样样本,而是全体数据本,而是全体数据当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。

一切都改变了,我们需要的是所有的数据,“样本总体”。

让让数据数据“发发声声”小数据小数据时时代的随机采代的随机采样样,最少的数据,最少的数据获获得最多的信息得最多的信息全数据模式,全数据模式,样样本本总总体体一、大数据一、大数据时时代的思代的思维变维变革革更更杂杂“更更杂杂”不是精确性,而是混不是精确性,而是混杂杂性性执迷于精确性是信息缺乏时代和模拟时代的产物。

只有5%的数据是有框架且能适用于传统数据库的。

如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

允允许许不精确不精确大数据的大数据的简单简单算法比小数据的复算法比小数据的复杂杂算法更有效算法更有效纷纷繁的数据越多越好繁的数据越多越好混混杂杂性,不是竭力避免,而是性,不是竭力避免,而是标标准途径准途径新的数据新的数据库设计库设计的的诞诞生生一、大数据一、大数据时时代的思代的思维变维变革革更好更好“更好更好”不是因果关系,而是相关关系不是因果关系,而是相关关系知道“是什么”就够了,没必要知道“为什么”。

在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。

关关联联物,物,预测预测的关的关键键“是什么是什么”,而不是,而不是“为为什么什么”改改变变,从操作方式开始,从操作方式开始大数据,改大数据,改变变人人类类探索世界的方法探索世界的方法二、大数据二、大数据时时代的商代的商业变业变革革二、大数据二、大数据时时代的商代的商业变业变革革数据化数据化“数据化数据化”一切皆可一切皆可“量化量化”大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。

信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。

现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。

数据,从最不可能的地方提取出来数据,从最不可能的地方提取出来数据化,不是数字化数据化,不是数字化量化一切,数据化的核心量化一切,数据化的核心当文字当文字变变成数据成数据当方位当方位变变成数据成数据当沟通成当沟通成为为数据数据一切事物的数据化一切事物的数据化二、大数据二、大数据时时代的商代的商业变业变革革价价值值“价价值值”“取之不尽,用之不竭取之不尽,用之不竭”的数据的数据创创新新数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。

它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。

数据数据创创新新1:

数据的再利用:

数据的再利用数据数据创创新新2:

重:

重组组数据数据数据数据创创新新3:

可:

可扩扩展数据展数据数据数据创创新新4:

数据的折旧:

数据的折旧值值数据数据创创新新5:

数据:

数据废废气气数据数据创创新新6:

开放数据:

开放数据给给数据估数据估值值二、大数据二、大数据时时代的商代的商业变业变革革角色定位角色定位“角色定位角色定位”数据、技数据、技术术与思与思维维的三足鼎立的三足鼎立微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITASoftware公司。

如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分价值还是必须从数据本身来挖掘。

大数据价大数据价值值的的3大构成大构成大数据掌控公司大数据掌控公司大数据技大数据技术术公司公司大数据思大数据思维维公司和个人公司和个人全新的数据中全新的数据中间间商商专专家的消亡与数据科学家的崛起家的消亡与数据科学家的崛起大数据,决定企大数据,决定企业业的的竞竞争力争力三、大数据三、大数据时时代的管理代的管理变变革革二、大数据二、大数据时时代的管理代的管理变变革革风险风险“风险风险”让让数据主宰一切的数据主宰一切的隐忧隐忧我们时刻都暴露在“第三只眼”之下:

亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。

无无处处不在的不在的“第三只眼第三只眼”我我们们的的隐隐私被二次利用了私被二次利用了预测预测与与惩罚惩罚,不是因,不是因为为“所做所做”,而是因,而是因为为“将做将做”数据独裁数据独裁挣挣脱大数据的困境脱大数据的困境二、大数据二、大数据时时代的管理代的管理变变革革掌控掌控“掌控掌控”责责任与自由并任与自由并举举的信息管理的信息管理当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。

在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则上重新定位。

然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。

管理管理变变革革1:

个人:

个人隐隐私保私保护护,从个人,从个人许许可到可到让让数据使用者承担数据使用者承担责责任任管理管理变变革革2:

个人:

个人动动因因VS预测预测分析分析管理管理变变革革3:

击击碎黑盒子,大数据程序碎黑盒子,大数据程序员员的崛起的崛起管理管理变变革革4:

反数据:

反数据垄垄断大亨断大亨结结语语正在正在发发生的未来生的未来大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。

大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。

大数据大数据时时代下的数据挖掘代下的数据挖掘Contents数据挖掘简介1数据挖掘分类2成功案例3总结与展望4数据挖掘简介产生背景随着数据库技术的飞速发展,快速增长的海量数据收集、存放在大量数据储存库中理解他们已经远远超出人的能力数据坟墓难得再访问的数据档案数据丰富,但信息缺乏如何利用大量数据数据挖掘定义从大量的、不完全的、有噪声的、随机的数据中提取含在其中的、人们事先不知道的、有用的信息和知识的过程。

功能的广义观点:

从存放在数据库、数据仓库或其他信息库中的大量数据中发现知识的过程数据挖掘是一个新兴、交叉学科领域演变历程提取信息和知识数据挖掘数数据据仓原库库文始件原始文件处理纸张硬盘界面、查询各个数据库联机分析处理各种媒体20世纪60年代前20世纪60年代20世纪80年代现在数据挖掘受多学科的影响数据挖掘BECDA统计学数据库技术信息科学其他学科机器学习数据挖掘步骤结果解释和评估数据挖掘算法执行问题定义数据收集和与处理数据挖掘分类离群点分析分类分析聚类分析关联分析时间序列数据挖掘分类分析:

找出描述和区分数据类或概念的模型,以便能够使模型预测未知的对象类常用方法:

分类规则;决策树;神经网络;聚类分析:

根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类或分组常用算法:

K-MEAMS;分层凝聚发;估算最大值法关联分析:

发现数据库中不同项之间的联系常用方法:

Apriori;MAQA;IUA;时间序列分析:

描述行为随时间变化的对象的规律或趋势,并对其建模匹配方法:

ARMA模型离群点分析:

检测和分析离群点离群点:

与数据的一般行为或模型不一致的点成功案例啤酒加尿布地点:

沃尔玛在美国加州的某连锁店起因:

每天销售信息和顾客基本情况的数据库中发现购买婴儿尿布的顾客多是男性,而且往往也同时购买啤酒经过:

重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在两者之间放上土豆之类的佐酒小食品和男性生活用品结果:

上述几种商品销量大增总结与展望现状:

作为一个新兴的研究领域,数据挖掘已经取得了广泛和重大进展。

应用到众多领域,出现了大量的商品化数据挖掘系统发展方向:

对现有方法进一步改进,研究发展数据挖掘语言的标准化,可视化方法和处理复杂数据类型的新方法目前面临困难:

成功案例少,中小企业需求少,人才稀缺。

ThankYou!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 初中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1