大数据(2013.12.06广州暨南大学报告内容).ppt

上传人:b****2 文档编号:2361405 上传时间:2022-10-29 格式:PPT 页数:43 大小:7.28MB
下载 相关 举报
大数据(2013.12.06广州暨南大学报告内容).ppt_第1页
第1页 / 共43页
大数据(2013.12.06广州暨南大学报告内容).ppt_第2页
第2页 / 共43页
大数据(2013.12.06广州暨南大学报告内容).ppt_第3页
第3页 / 共43页
大数据(2013.12.06广州暨南大学报告内容).ppt_第4页
第4页 / 共43页
大数据(2013.12.06广州暨南大学报告内容).ppt_第5页
第5页 / 共43页
点击查看更多>>
下载资源
资源描述

大数据(2013.12.06广州暨南大学报告内容).ppt

《大数据(2013.12.06广州暨南大学报告内容).ppt》由会员分享,可在线阅读,更多相关《大数据(2013.12.06广州暨南大学报告内容).ppt(43页珍藏版)》请在冰豆网上搜索。

大数据(2013.12.06广州暨南大学报告内容).ppt

大数据时代下数据分析理念的辨析厦门大学数据挖掘研究中心厦门大学数据挖掘研究中心厦门大学经济学院统计系厦门大学经济学院统计系朱建平朱建平博士、教授、博士生导师博士、教授、博士生导师http:

/xdmrc.org/报告内容及目的让大家了解国内外大数据研究和应用现状,明确了“大数据时代”的定义,并从统计学的角度界定“大数据”概念;根据大数据的特点,重新审视大数据时代统计研究工作过程及统计思维所面临的挑战,明确统计工作和统计研究转变的基本思路;了解大数据能带来哪些商业价值。

目的是启发我们一些思考。

大数据时代下数据分析理念的辨析一、大数据产生的背景二、国内发展现状三、大数据概念的界定四、如何理解大数据和分析大数据五、大数据对统计学科和统计研究工作的影响六、大数据能带来哪些商业价值七、厦门大学数据挖掘研究中心简介IBM及牛津大学2012年10月发布问卷调查报告称,大数据的主要分析能力有:

1.查询与报告91%;2.数据挖掘77%;3.数据可视化71%;4.可预测的建模67%;5.优化分析65%;6.模拟分析56%;7.自然语言文本分析52%;8.地理空间分析43%;9.数据流分析35%;10.视频分析26%;11.声音分析25%。

一、大数据产生的背景1955年信息公开1965年摩尔定律1973年最小数据集1980年标准数据接口1988年普适计算2000年数据驱动1955年,约翰摩斯提出自由信息法草案,几经周折,直到1965年才被参议院投票通过,直到次年7月4日才被美国总统签字通过。

摩尔定律摩尔定律:

同一个面积集成电路上可容纳的晶体管数目,一到两年将增加一倍,亦即计算机硬件的处理速度和存储能力将提升一倍。

最小数据集的概念起源于美国医疗领域,指代国家的管理层面针对某个业务管理领域强制搜集的数据指标。

一些领域的最小数据集甚至被上升到立法高度。

数据在不同信息管理系统之间的共享也使数据接口的标准化越来越得到强调。

返回主机型计算阶段(MainframeComputing)个人型计算阶段(PersonalComputing)普适计算阶段(UbiquitousComputing)21世纪初,世界上许多国家开始关注大数据的发展和应用,在此期间大数据分析和应用的学者和专家发起了关于大数据研究和应用的深入探讨,例如VikorMayer-SchnbergerandKennethCukier所著的大数据时代就是从生活、工作与思维的角度探讨了大数据时代带来的变革。

二、国内发展现状近年来,对大数据的研究和应用不仅引起了我国自然科学和人文社会科学界的广泛重视,也受到我国中央政府的高度关注:

这些是大数据产业的重要组成部分,与大数据产业发展密切相关。

“十二五”国家战略性新兴产业发展规划明确提出支持海量数据存储、处理技术的研发与产业化物联网“十二五”发展规划提出将信息处理技术列为四项关键技术创新工程之一2013年2月国家统计局召开的以大数据为主题的工作会议2013年3月26日科研所又举办了“大数据在政府统计工作中的应用研究”课题研究专家咨询会2013年3月4日国家统计局科研所重点讨论部署了“大数据在政府统计中的应用”的研究工作2012年12月国家统计局在上海开展了大数据应用的调研活动2012年11月国家统计局总统计师鲜祖德会见美国华裔大数据专家时,提出国家统计局十分重视大数据在统计中的应用,并成立了课题组研究如何通过对大数据处理推进统计方法制度改革,改进政府统计工作我国国家统计局科研所于2012年8月就召开了大数据应用研究座谈会,提出了在大数据时代运用现代信息技术建立统计云架构的研究目标。

2013年4月11日,国家统计局总统计师鲜祖德率领大数据课题组赴百度公司调研,就大数据在政府统计中的应用及相关合作事宜,与百度公司有关领导和专家进行了深入交流2013年5月2日国家统计局科研所青年学术沙龙深入研讨大数据应用2013年8月6日,国家统计局总统计师鲜祖德主持召开了“大数据在政府统计中的探索与应用研究”课题报告座谈会2013年10月28日-29日,“第十七次全国统计科学讨论会”在浙江省杭州市召开。

主题是:

大数据背景下的统计。

从目前来看,我国大数据的理论研究和应用研究刚刚起步,学术界、企业界及政府部门对该领域的重视程度前所未有。

毫无疑问,由于计算机处理技术发生着日新月异的变化,人们能处理大规模复杂数据能力日益增强,从大规模数据中提取有价值的信息能力日益提高,人们将会迅速进入大数据时代。

数据时代,不仅会带来人类自然科学技术和人文社会科学的发展变革,还会给人们的生活和工作方式带来焕然一新的变化。

统计学是一门古老的学科,已经有三百多年的历史,在自然科学和人文社会科学的发展中起到了举足轻重的作用统计学又是一门生命力及其旺盛的学科,它海纳百川又博采众长她随着各门具体学科的发展不断壮大自己毫不例外,大数据时代的到来,给统计学科带来了发展壮大机会的同时,也使得统计学科面临着重大的挑战。

怎样深刻地认识和把握这一发展契机,怎样更好地理解和应对这一重大挑战,这就迫使我们需要澄清大数据的概念、明确大数据的特征;重新审视统计的工作过程、提出新的思想理念三、大数据概念的界定我们查阅了大量的关于大数据方面的资料,对大数据概念的定义众说纷纭,对大数据的理解决于定义者的观点和背景。

比较有代表性的定义主要有以下几种。

维基百科给出的定义是,大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据科学家JohnRauser提出一个简单的定义是,大数据指任何超过了一台计算机处理能力的数据。

美国咨询公司麦肯锡的报告是这样定义的,大数据是指无法在一定时间内用传统数据库软件工具对其进行抓取、管理和处理的数据集合。

Gartner公司的MervAdrian(2011)认为,大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。

IDC(InternationalDataCorporation,2011)对大数据概念的描述为:

大数据是一个看起来似乎来路不明的大的动态过程;但是实际上,大数据并不是一个新生事物,虽然他确确实实正在走向主流并引起广泛的注意;大数据并不是一个实体,而是一个横跨很多IT边界的动态活动。

还有一些学者如格雷布林克(Grobelink.M)(2012)、Forrester的分析师布赖恩霍普金斯(BrianHopkins)、鲍里斯埃韦尔松(BorisEvelson)(2012)和Oracle(甲骨文)的刘念真(2013)等虽未给出大数据的具体定义,但是他们概括了大数据的特点。

格雷布林克(2012)认为大数据具有三个特点,即多样性(Variety)、大量性(Volume)、高速性(Velocity),又称3V特点。

布赖恩霍普金斯(BrianHopkins)、鲍里斯埃韦尔松(BorisEvelson)(2012)认为,除了格雷布林克给出的三个特性外,大数据还具有易变性(Variability)的特点,即4V特点。

刘念真则认为大数据除了Grobelink.M给出的特点外,还具有真实性(Veracity)和价值性(Value),即五V特点。

大数据科学研究还刚刚起步,既然是研究,我们就要理解其的内在的涵义。

这些对大数据概念的表达方式虽然不同,但从各自的角度描述出了对大数据的理解。

从表面看我们可以从两个角度来理解,如果把“大数据”看成是形容词,它描述的是大数据时代数据的特点;如果把“大数据”看成是名词,它体现的是我们科学研究的对象。

1、“大数据时代”的定义格雷布林克(Grobelink.M)在纽约时报2012年2月的一篇专栏中所称,“大数据时代”已经降临,在商业、经济及其他领域中,管理者决策越来越依靠数据分析,而不是依靠经验和直觉。

“大数据”概念之所以被炒得如火如荼,是因为大数据时代已经到来。

理解大数据,必须首先理解大数据的时代背景,这样就有必须澄清大数据时代的含义。

我们可以这样来定义大数据时代,大数据时代是建立在对互联网、物联网等渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息时代。

在这个时代,可以致力于让人们能够从几乎任何数据中获得可转换为推动人们生活方式变化的有价值的知识。

社会性世界范围的计算机联网,数据流通取代产品流通,将生产演变成服务,将工业劳动演变成信息劳动。

产品不需要离开它的原始占有者就能够被交换,这类产品通过计算机网络可以大量复制和分配,其价值增加是通过知识实现实现这一价值的主要工具就是计算机软件。

广泛性计算机技术不仅促进自然科学和人文社会科学各个领域的发展,而且全面融入了人们的社会生活中人们在不同领域采集到的数据量之大,达到了前所未有的程度,数据的产生、存储和处理方式发生了革命性的变化人们的工作和生活基本上都可以用数字化表示,在一定程度上改变了人们的工作和生活方式公开性大数据时代展示了从信息公开运动到数据技术演化的多维画卷虽然考虑对于用户隐私的保护,但是大数据必然产生于一个开放的,公共的网络环境之中。

一系列受到法律支持或社会公认的数据标准和规范这种公开性和公共性的实现取决于若干个网络开放平台或云服务动态性大数据是基于互联网的及时动态数据数据资料可以随时随地产生,数据资料的收集具有动态性数据存储技术、数据处理技术也随时更新,即处理数据的工具也具有动态性2、“大数据”的定义我们认为大数据定义之所以众说纷纭,没有形成统一的定义。

主要是因为大数据如其名一样,所涉内容太“大”,大家看它的角度不一样,于是出现了仁者见仁,智者见智的局面。

在了解大数据的历史沿革和大数据所处的时代背景后,我们就可以进一步充分了解大数据的内涵。

这里我们需要提及的是,大数据也是数据,统计学应该随时地关注大数据分析,哪里有数据,哪里就有统计分析。

因此,鉴定“大数据”应该在现有科学技术的基础上引入统计学的思想。

我们可以这样来定义“大数据”,大数据指那些超过传统数据系统处理能力、超越经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合。

对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。

大数据特点大量性多样性价值性高速性半结构化数据半结构化数据半结构化数据半结构化数据结构化数据结构化数据结构化数据结构化数据非结构化数据非结构化数据非结构化数据非结构化数据高度发达的网络技术承载数据资料的个人电脑、手机、平板电脑等数据资料的来源范围在不断拓展人类获得数据资料在不断更改数据的计量单位我们认为大数据的基本特征可以体现在以下四个方面1.大量性2.多样性大数据规模巨大,数据在不断更新变化,这些有价值的信息可能转瞬即逝,因此,在大数据时代,对数据的接收和处理思想都需要转变,如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

3.价值性处理时效性高,因为大数据有价值信息存在时间短,要求能迅速有效地提取大量复杂数据中的有价值信息。

在如此海量的数据面前,处理数据的效率就是企业的生命。

4.高速性四、如何理解大数据和分析大数据四、如何理解大数据和分析大数据维克多(VikorMayer-Schnberger)在其大数据时代一书中提到传统的数据分析思想应作三大转变:

一是转变抽样思想;二是转变数据测量的思想;三是不再探求难以捉摸的因果关系。

毫无疑问,上述三个转变均与统计研究工作息息相关,从统计研究工作角度如何理解?

1、转变抽样调查工作思想大数据时代,我们面对的数据样本就是过去资料的总和,样本就是总体,通过对所有与事物相关的数据进行分析,既有利于了解总体,又有利于了解局部。

总的来讲,传统的统计抽样调查方法有以下几个方面的不足可以在大数据时代得到改进。

(1)抽样框不稳定,随机取样困难。

(2)事先设定调查目的,会限制调查的内容和范围。

(3)样本量有限,抽样结果经不起细分。

(4)纠偏成本高,可塑性弱。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 自然景观

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1