大数据的研究方法及可能应用王磊Word下载.docx

上传人:b****6 文档编号:20825655 上传时间:2023-01-25 格式:DOCX 页数:11 大小:31.83KB
下载 相关 举报
大数据的研究方法及可能应用王磊Word下载.docx_第1页
第1页 / 共11页
大数据的研究方法及可能应用王磊Word下载.docx_第2页
第2页 / 共11页
大数据的研究方法及可能应用王磊Word下载.docx_第3页
第3页 / 共11页
大数据的研究方法及可能应用王磊Word下载.docx_第4页
第4页 / 共11页
大数据的研究方法及可能应用王磊Word下载.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

大数据的研究方法及可能应用王磊Word下载.docx

《大数据的研究方法及可能应用王磊Word下载.docx》由会员分享,可在线阅读,更多相关《大数据的研究方法及可能应用王磊Word下载.docx(11页珍藏版)》请在冰豆网上搜索。

大数据的研究方法及可能应用王磊Word下载.docx

[1]总之,在各个领域都出现了爆发式增长的数据。

这种增长的速度超过了我们创造任何一种机器的速度,甚至超过了我们的想象。

那么,我们周围究竟有多少数据呢?

这些数据增长的速度又有多快呢?

根据南加利福尼亚大学的统计学家马丁·

希尔伯特(MartinHilbert)的估算,在2007年人类大约存储了超过300艾字节(EB)的数据。

[2]在这里,1艾字节(EB)等于2^60字节(B)。

这是个什么概念呢?

一部完整的电影总可以被压缩为1个吉字节(GB)的大小,而1个艾字节(EB)相当于10亿吉字节(GB),是一个非常巨大的单位。

这就是说,2007年人类储存的数据总量超过了3000亿部电影的数据量。

如果我们一天看一部这样的电影,需要近10亿年的时间才能看完!

这还不是最为庞大的数字,2010年全球数据总量约为1.8泽字节(ZB),预计2020年全球数据总量将达到40泽字节(ZB)的规模。

[3]1个泽字节(ZB)是1024艾字节(EB),是比艾字节(EB)更为巨大的单位。

由此可见,人类现在创造的数据总量是相当庞大的。

不仅如此,人类存储数据的信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。

[4]我们真的是被数据的海洋淹没了。

2、大数据的概念及特征

如此巨大和快速增长的数据量催生了大数据(BigData)概念的产生。

大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

[5]从这个概念上看,大数据必然不能通过单台计算机进行处理,也不能使用传统的方法进行分析,必须依托于云计算这一先进的技术。

同时,大数据具有4个基本特征。

第一,数据体量巨大。

前文也已提及,现在数据总量已经达到EB级别,甚至达到了ZB级别。

第二,数据类型繁多,来源广泛。

各种各样的网络文章、音频资料、视频资料、图片资料、地理位置信息等等都是数据的不同类型与来源。

第三,价值密度低,商业价值高。

体量如此巨大的数据不可能全部都是有用的信息,而这极少量的信息蕴含的价值往往是巨大的。

以视频资料为例,公安机关在侦破刑事案件时通常需要调取案发现场的监控视频。

而在连续不间断的监控过程中,有用的数据可能仅仅只有一两秒,而有时恰恰是这一两秒的数据就能帮助公安机关发现破案的蛛丝马迹。

第四,增长速度快。

正如前文所说,现如今数据增长的速度远远超过了世界经济增长的速度,而且这一速度还在不停地加快中。

这就是所谓的大数据4V特征,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

由此可见,大数据的核心问题是如何在种类繁多、体量巨大的数据中快速获取有价值的信息。

[6]

3、大数据的意义

1)、公共卫生变革

2009年,甲型H1N1流感病毒爆发,牵动了全世界人民的心。

与以往流感爆发的疫情不同,在这次疫情中,谷歌公司发布的数据代替习惯性滞后的官方数据成为了一个更有效、更及时的指示标,公共卫生机构的官员从谷歌公司获得了非常有价值的数据信息。

实际上,谷歌公司获取疫情数据的方法是建立在大数据的基础之上的。

在如今的互联网时代,很多人在身体不适时,总会首先在网络上搜索与之相关的词条再决定是否去看医生。

例如,如果我们出现咳嗽和发热的症状,或许我们会搜索“哪些是治疗咳嗽和发热的药物”这种词条。

于是,这种特殊的检索词条就会流露出流感侵袭的信息。

而作为全球最大的搜索引擎公司,谷歌公司每天都会收到超过30亿条的搜索指令,而且,谷歌公司保存了多年来的全部搜索记录。

以此为基础,谷歌公司把疫情蔓延时5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,如此这般分析人们的搜索记录就可判断这些人是否感染了流感病毒。

于是,谷歌公司通过观察人们在网络上的搜索记录成功预测了流感病毒的传播,而且不仅仅是美国范围内的传播,可以精确到特定的地区和州。

不仅如此,谷歌公司的判断十分及时,不会像美国疾控中心那样在流感爆发一两周之后才可以做出判断。

谷歌公司的这种方法以前是一直被忽略的,也是一种前所未有的方式,这就是“通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见”。

[7]拥有如此先进的统计技术和庞大的数据储备,我们有理由相信下一次流感来袭的时候,世界将会拥有一种更好的预测工具来预防流感的传播。

2)、商业变革

大数据不仅改变了公共卫生领域,商业领域也因为大数据发生了深刻的变化。

以购买飞机篇为例,美国计算机专家奥伦·

埃奇奥尼(OrenEtzioni)专门开发了一个系统,用来预测当前的机票价格在未来的一段时间内是会上升还是下降。

也就是说,这个系统需要分析所有特定航线机票的销售价格并确定机票价格与提前购买天数的关系。

如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。

反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。

埃奇奥尼的预测系统是十分成功的,帮助许多乘客节省了一笔不小的开支。

当然,这个预测系统也是在大数据的基础上建立的,所以不可避免的是系统的运转需要海量数据的支持。

埃奇奥尼找到了一个商业机会预订机票价格的数据库,而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。

基于这个机票价格预测系统,埃奇奥尼创立了一家大数据科技创业公司,名为Farecast。

到目前为止,Farecast公司已经拥有了多达2000亿条飞行数据记录,预测的准确度高达75%,而且使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。

[8]Farecast公司是大数据公司的一个缩影,也代表了当今世界发展的趋势。

计算机的处理能力和存储能力的大幅提升、数据分析能力的突破为大数据公司的出现奠定了基础。

3)、思维变革

在大数据诞生以前,人们通常认为数据是静态的,而且一旦完成了收集数据的目的之后,数据就完全没有用处了。

而到了现在,大数据的出现改变了人们的认知,颠覆了人们利用数据的理念。

数据已经成为了“一种商业资本,一项重要的经济投入,可以创造新的经济利益”。

而且爆炸式增长的数据由量变引发了质变,大数据成为了“人们获得新的认知、创造新的价值的源泉”;

成为了“改变市场,改进组织机构,改善政府与公民关系的方法”。

大数据时代已经来临,大数据对我们的生活,对整个世界都提出了挑战,而这仅仅只是一个开始。

面对海量的数据,我们不必关心数据间的因果关系,而应该更加注重相关关系。

也就是说,我们只需要知道“是什么”,而不需要知道“为什么”。

这是一个极为重大的改变,在不久的将来,或许我们的认知方式和理解世界的基础都将因为大数据而受到不同程度的冲击。

二、大数据的研究与分析方法

1、数据挖掘

1)、数据挖掘的内涵与基本特征

1995年,法耶兹(Fayyad)在知识发现会议上第一次提出了数据挖掘(DataMining)的概念,法耶兹认为数据挖掘是“一个自动或半自动化的从大量数据中发现有效的、有意义的、潜在有用的、易于理解的数据模式的复杂过程”。

法耶兹的定义突出了数据挖掘的工程特征,阐释了数据挖掘是一种用于在海量数据中发现其中存在的有价值的数据模式的分析机制。

其实,在技术的层面上,数据挖掘是网络时代必然的技术热点。

在电子商务和互联网商业中,数据挖掘有着极为重大的应用价值。

数据挖掘就是解决各种实际问题的数据分析过程,而在通过大量数据解决实际问题的过程中,复杂问题的解决往往不是一两个数据模型的简单套用就可以完成的,经常需要很多步骤综合构成一个系统性的解决方案,需要多个模型协作完成。

所以,对于数据挖掘来说,选择模型可能比应用模型更重要。

而且,数据挖掘不仅仅是对数据的概括和归纳,更是数据中的复杂关系的发现过程。

2)、数据挖掘的产生

数据挖掘技术的产生是一个逐渐演变的过程。

在数据处理初期,人们希望通过某些方法和技术实现自动决策,当时机器学习受到了人们的广泛关注。

机器学习就是将人们已知的能够成功解决某一类问题的算法输入计算机,计算机便可以代替人类进行决策。

[9]对于某一类特定的问题,机器学习可以总结出相应的解决规则,并且这种解决规则具有一定的通用性。

20世纪70年代,神经网络技术正式形成并逐渐发展,随之非线性复杂结构应用到复杂数据关系的模型建立中。

到了80年代,知识工程取代机器学习成为了人们关注的焦点。

知识工程不同于机器学习,它是直接给计算机输入已被代码化的解决规则,计算机通过则利用这些规则来解决某些问题。

[10]80年代末期,全新的神经网络理论建立,在其指导下,人们重新回到机器学习的方法上,并利用机器学习处理大型商业数据库。

在此背景下,一个新的术语“数据库中的知识发现”诞生了,简称KDD(KnowledgeDiscoverinDatabase)。

KDD概括了所有从源数据中发掘模式或联系的方法,人们也逐渐接受了数据挖掘的概念与过程。

3)、数据挖掘的功能

数据挖掘的核心任务是探索与建立数据的特征和数据与数据之间的关系。

根据将要探索与建立的数据关系是否有目标,又可将数据挖掘的功能分为有指导的学习(SupervisedLearning)和无指导的学习(UnsupervisedLearning)两大类。

其中,有指导的学习是指对预设目标的概念学习和建模,主要由分类、估计和预测三方面的功能组成。

[11]而无指导的学习是指寻找和刻画数据的概念结构,主要由关联关系发现、聚类分析、可视化三方面的功能组成。

[12]

1分类(Classification):

分类主要是用可能的特征变量通过对大量数据的分析和比较提炼出可辨识类别的显著不同的结构特征,即“获取一个概念区别于另一个概念的构成和表示”。

具体来说,通过分析一部分数据库中的数据,可以将数据分成不同的类别。

再为每个类别建立分类分析模型,然后利用这些分类分析模型对数据库中的其他数据记录进行分类。

例如,对于信用卡申请者可以分为高、中、低三个类别。

2估计(Estimation):

数据的估计是指描述由数据表达的未知概念的模型,并给出模型参数的估计方法并进行数值计算,或者得到模型的可靠性范围等。

估计与分类类似,不同之处在于,分类描述的是离散型数据变量的模型,而估计处理连续型数据变量的模型。

一般来说,估计可以作为分类的前一步工作。

给定一些输入数据,通过估计,得到未知的连续变量的值,然后,根据预先设定的范围,进行分类。

例如,可根据购买模式估计家庭的年收入,再根据年收入对不同的家庭进行分类。

3预测(Prediction):

预测是指对尚未发生的、目前仍然不确定的事件或事物做出预先估计或表述,并通过对数据的处理与分析推测出事件或事物未来的发展趋势。

分类和估计都可用于预测,其中分类强调不同规律的差异解释,估计则强调对未知规律通过数据表达的机制研究。

但是,与分类和估计不同的是,预测更加注重数据的规律对未来的影响趋势。

4关联关系发现(AssociationRules):

关联关系发现则试图发现和提取研究对象之间通过数据表达的相互关系,其中的组合关联规则是要确定哪些事物会一起出现或发生。

例如,某超市中的客户通常在购买A商品的同时会购买B商品。

5聚类分析(Clustering):

聚类分析主要提炼数据的相似性分组结构。

聚类的目的是将相似的数据聚合在一起,而差异较大的数据分在不同的类中。

在聚类中,没有事先确定好的组别,也没有样本,这与分类有着很大的区别。

而且数据按照特征的相似性聚集在各自的类别中,对于数据的分析不仅要完成相似个体的聚合与分组,也要提炼出各个分组和类别内的数据中蕴含的意义。

例如,一些特定症状的聚集可能代表了一种特定的疾病。

6可视化(Visualization):

数据的可视化更加强调数据形象的展现方式。

数据挖掘的首要目标往往是要深入理解复杂数据库的内容,而在开始时对数据准确的描述就可以帮助我们找到进一步解决问题的途径。

例如,通过YonghongZ-Suite等工具进行数据的展现、分析和钻取,将数据挖掘的分析结果更形象、更深刻的展现出来。

[13]

4)、数据挖掘的流程

问题识别:

数据挖掘的目标就是要通过对数据的分析发现解决问题的方法,所以在问题识别阶段,首先要明确系统和组织中的关键问题。

我们知道,大数据本身十分复杂,与之相关的实际问题也就极为复杂,在数据挖掘过程中必须牢牢抓住核心问题,把握问题的边界和本质,才能确定有效地数据挖掘方案。

②数据理解:

在数据挖掘过程中,显然确认研究的问题和现有的数据之间是否匹配是十分重要的。

数据理解主要包含对数据价值的理解和对数据质量的理解两方面。

我们知道,数据是一种特殊的资源,与物质产品相比,数据不可消耗。

数据的价值存在于不同的系统不同的用户之间的传递和共享,而且在复制和更新的过程中,数据的价值可以得到提升。

同时,数据也是极为脆弱的,也容易遭到破坏。

数据的不一致性、重复太多、陈旧过时、不稳定等都是数据常见的质量问题。

当然,在数据理解过程中,我们也应了解数据格式和数据类型,了解数据的获取方式和异常数据的存在。

③数据准备:

在对数据进行分析之前,首先需要将数据汇集到一起,形成数据库。

但是,在汇总数据时,多余数据以及数据格式与含义不一致的现象十分普遍。

于是,将这些存在于不同环境中的或者存在于相对封闭的系统中的数据有机的结合在一起,实现数据资源的共享就是数据准备阶段的关键环节和主要任务。

用于数据准备的技术称为ETL技术,“ETL”是英文Extract,Transform和Load三个单词首字母的缩写,分别表示抽取、转换和装载三方面的数据处理技术。

数据抽取就是将数据按照数据挖掘的项目主题从各种原始的数据系统中读取出来,这是数据挖掘所有工作的前提。

然后进行数据转换,根据预先设计好的规则将数据进行转换,使得不同结构和格式的数据统一起来。

最后是进行数据装载,将完成转换的数据导入到数据库中,完成数据整合的过程。

当然,汇集数据需要用到很多数据技术。

对于复杂的数据格式,还需要利用编程语言的强大功能来实现数据的集成,也可以使用一些工具软件,例如SAS,SPSS,AbInitio和PERL工具。

④建立模型:

数据建模是数据挖掘流程中最核心的环节,使用机器学习算法或统计方法对大量的数据进行建模分析,从而获得对数据系统最合适的模型。

建立模型是一个反复的实验过程,需要仔细考察不同的模型和数据,以确定与待解决的问题最适合的数据模型。

⑤模型评价:

数据挖掘的模型评价包括功能性评价和服务性评价两方面的内容。

其中,功能性评价是指建立的模型对任务完成的质量,常见的有精准性评价和稳定性评价。

精准性评价主要衡量模型估计的准确性,而稳健性评价是对模型的抗干扰性和适应性进行评测。

功能性评价中常用的两种方法是增益图法和ROC曲线法。

除了技术性能的评价,服务的因素也不容忽视。

⑥部署应用:

数据模型建立并且经过验证之后,有两种主要的途径。

第一种用途是提供给分析人员做参考,通过察看和分析这个模型之后提出行动方案建议。

第二种用途是将此模型应用到不同的数据集合上。

2、贝叶斯分类

贝叶斯分类(BayesClassification)是统计学中的分类方法,其分析方法的特点是使用概率来表示所有形式的不确定性,学习和推理都要通过概率规则实现,[14]即利用概率统计知识进行分类。

贝叶斯分类在机器学习领域中具有十分重要的地位,在处理数据时它的作用也是十分强大的。

在贝叶斯分类中,数据分类的问题转化为了分布的决策问题。

贝叶斯分类也为分布的决策提供了两种产生分布函数的方法。

第一种是分布估计法,即根据损失函数、先验分布和似然函数,通过后验分布,由最优决策产生分类函数。

在样本连续和数据维度不高的情况下,正态分布下的线性判别和二次判别等方法是两个十分典型的方法。

第二种是条件依赖关系估计法,针对数据变量是离散的而且维数较高的情况。

如果变量之间存在少量的条件依赖关系,则利用条件依赖关系估计法进行分析可以获得高质量的估计结果,这种方法还可以用于分析变量之间的逻辑依赖关系。

上面所说的两种方法或可称为朴素贝叶斯方法和贝叶斯网络方法。

[15]

3、图模型

图模型(GraphicModels)用于刻画复杂数据系统中多个变量或不同的观测数据之间地关系,是提取高维数据的结构信息的重要工具。

图模型的基本思想是通过揭示高维随机变量的相互依存关系刻画变量之间的条件独立性。

在统计学中,图模型实质上就是用节点表示随机变量和用弧表示条件独立假设的图。

[16]目前,图模型发展较快的主要有两个分支,一个是基于似然函数的惩罚算法,另一类是基于回归技术的算法。

1)、GraphicalLASSO算法

GraphicalLASSO算法是弗里德曼(Friedman)于2007年提出的,是在似然函数上增加惩罚算法进行图模型估计的方法。

这种算法使用最速下降的方法,速度较快。

2)、MB算法

MB算法是一种典型的回归算法。

这种算法将图模型视为是由每个顶点对其他顶点做邻域选择时所产生的链接图的叠加。

于是,在MB算法中,每个顶点所占的比例相同,保证了各个顶点可以选择相同数量的与之连通的边。

MB算法实质上是从每个顶点最低链接需要的角度描述图的一种方式。

3)、SPACE算法

SPACE算法是另一种典型的回归算法。

该算法将稀疏图看成是对顶点实施不等权重影响导致的相对组合的一般形式。

而其中的权重由一个顶点的辐射强度在所有顶点辐射强度分布中的位置决定,一个顶点的辐射强度是该顶点对其他顶点的偏相关系数之和,而辐射强度分布是所有顶点辐射强度的分布。

如果一个顶点的辐射强度较大,则该顶点分配较大的权重,进一步可允许该顶点选择更多边与之连通。

反之,如果一个的辐射强度较小,则该顶点分配较小的权重,并限制该顶点选择与更多边连通。

三、大数据的可能应用举例

1、客户关系管理

1)、协同推荐模型

伴随着互联网和电子商务的发展,数据及信息的体量已经远远超出人们的处理能力。

及时为客户过滤不必要的项目是实现异构管理,有效利用网络数据资源,提升整体数据处理性能的重要措施。

推荐系统就是一门专门面向客户的网络数据过滤技术,并向客户推荐适合的项目。

系统的核心就是推荐算法,主要有以下三种:

1人口统计学的推荐(Demographic-basedRecommendation)

即根据系统客户的基本信息发现客户的相关程度。

具体方法是对所有客户建立人口统计学(性别、年龄、职业等)的数据档案。

例如寻找与甲客户的人口统计学特征相似的乙客户,由于甲、乙客户具有相同的人口统计学的特征,而认为甲、乙客户具有较高的关联度。

于是,可将乙客户偏好的项目推荐给甲客户。

这类推荐算法的优点是适用于冷启动问题,不足是推荐的精准度不高,因为仅仅在人口统计学的特征上给出推荐,而人口统计学的资料很难体现客户在项目需求上的差异。

2基于内容的推荐(Content-basedRecommendation)

即根据所推荐项目的元数据,发现项目或者数据内容的相关性。

例如甲项目的类型是“户外用品”,乙项目的类型也是“户外用品”,这两种项目具有相似性。

如果某客户对甲项目产生兴趣,那么系统就会对其推荐乙项目。

这种推荐算法需要对项目内的数据进行分析和建模,推荐的质量依赖于对项目描述的完整程度。

一般应用中观察到的关键词和标签是描述项目元数据的简单而有效的方法。

不足之处在于项目相似度的分析仅仅取决于项目本身的特征,未涉及客户个体差异对项目的态度。

3协同过滤的推荐(CollaborativeFilteringRecommendation)

与传统的人口统计学和基于内容的过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似兴趣用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。

协同过滤主要解决了传统算法在数据的稀缺性和项目数量较多的情况下的推荐项目问题。

协同过滤推荐系统处理的数据问题包含两方面的变量——用户和选择条目,推荐的目标是预测用户对某些位置条目的评价。

1992年,戈德堡(Goldberg)实现了第一个协同过滤推荐系统,戈德堡利用办公伙伴等与被推荐人有密切生活接触的人进行相似性推荐。

现在,协同过滤推荐在信息过滤和电子商务行业得到了广泛应用,包括推荐书籍、酒店、电影、商业网站等。

例如AMAZON网上书店提供非常先进的个性化推荐功能,能为不同兴趣爱好的用户自动推荐尽量符合其兴趣需要的书籍。

具体来说,AMAZON网上书店使用协同过滤推荐算法对读者曾经购买过的书籍以及该读者对其他书籍的评价进行分析后,将向读者推荐他可能喜欢的新书。

而且读者的信息将被再次保存,这样顾客下次再来时就能更容易的买到想要的书籍。

[17]

2)、客户价值模型

客户价值是衡量企业商业实力的重要标志,是发展客户关系和提高市场竞争力的基础。

而随着企业数据收集和分析系统越来越强大,预测、识别和开发一位客户的终生价值的数据模型就称为了一个十分重要的课题。

与之相关的问题是怎样用数据衡量客户的价值。

德怀尔(Dwyer)提出了一种系统模型计算客户价值。

德怀尔将客户流失预测引入到客户价值分类模型中,并将客户划分为永久流失和暂时流失两部分。

伯杰(Berger)和纳斯尔(Nasr)更进一步将客户按照流失划分为5类,并可以实现对每一类客户价值的计算。

而休斯(Hughes)提出了基于行为变量的客户价值直接计算方法,这种方法使用3种指标——最近购买时间、购买频次和购买金额来分析客户的价值。

以上三种指标是企业交易数据库都可以提取的信息。

2、社会网络分析

社会是一个十分复杂的系统,社会中的成员通过特定的关系形成一些团

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 初中作文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1