数据挖掘与统计工作.docx

上传人:b****4 文档编号:24324893 上传时间:2023-05-26 格式:DOCX 页数:29 大小:99.70KB
下载 相关 举报
数据挖掘与统计工作.docx_第1页
第1页 / 共29页
数据挖掘与统计工作.docx_第2页
第2页 / 共29页
数据挖掘与统计工作.docx_第3页
第3页 / 共29页
数据挖掘与统计工作.docx_第4页
第4页 / 共29页
数据挖掘与统计工作.docx_第5页
第5页 / 共29页
点击查看更多>>
下载资源
资源描述

数据挖掘与统计工作.docx

《数据挖掘与统计工作.docx》由会员分享,可在线阅读,更多相关《数据挖掘与统计工作.docx(29页珍藏版)》请在冰豆网上搜索。

数据挖掘与统计工作.docx

数据挖掘与统计工作

台湾辅仁大学教授谢绑昌先生作的“数据挖掘与统计工作”报告原文

数据发掘的工作(DataMining)是近年来数据库应用领域中,相当热门的议题。

它是个神奇又时髦的技术,但却也不是什么新东西,因为DataMining使用的分析方法,如预测模型(回归、时间数列)、数据库分割(DatabaseSegmentation)、连接分析(LinkAnalysis)、偏差侦测(DeviationDetection)等;美国政府从第二次世界大战前,就在人口普查以及军事方面使用这些技术,但是信息科技的进展超乎想象,新工具的出现,例如关连式数据库、对象导向数据库、柔性计算理论(包括Neuralnetwork、Fuzzytheory、GeneticAlgorithms、RoughSet等)、人工智能的应用(如知识工程、专家系统),以及网络通讯技术的发展,使从数据堆中挖掘宝藏,常常能超越归纳范围的关系;使DataMining成为企业智慧的一部份。

DataMining是一个浮现中的新领域。

在范围和定义上、推理和期望上有一些不同。

时代不一样了,现在数据来得既多又便宜,多到了没有人有时间去看的程度。

挖掘的信息和知识从巨大的数据库而来,它被许多研究者在数据库系统和机器学习当作关键研究议题,而且也被企业体当作主要利基的重要所在。

有许多不同领域的专家,对DataMining展现出极大兴趣,例如在信息服务业中,浮现一些应用,如在Internet之数据仓储和在线服务,并且增加企业的许多生机。

我们对于这种DataMining的产品应该有一个正确的认知,就是它不是一个无所不能的魔法。

它不是在那边监视你的数据的状况,然后告诉你说你的数据库里发生了某种特别的现象。

也不是说有了DataMining的工具,就连不了解业务、不了解资料所代表的意义、或是不了解统计原理的人也可以做DataMining。

DataMining所挖掘出来的信息,也不是你可以不经确认,就可以照单全收应用到业务上的。

事实上,DataMining工具是用来帮助业务分析策画人员从资料中发掘出各种假设(Hypothesis),但是它并不帮你查证(Verify)这些假设,也不帮你判断这些假设对你的价值。

TheEvolutionofDataMining

何谓DataMining

DataMining是指找寻隐藏在数据中的讯息,如趋势(Trend)、特征(Pattern)及相关性(Relationship)的过程,也就是从数据中发掘信息或知识(有人称为KnowledgeDiscoveryinDatabases,KDD),也有人称为「资料考古学」(DataArchaeology)、「数据样型分析」(DataPatternAnalysis)或「功能相依分析」(FunctionalDependencyAnalysis),目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项增加各企业潜能的重要指标。

此领域蓬勃发展的原因:

现代的企业体经常搜集了大量资料,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。

如果能透过数据发掘技术,从巨量的数据库中,发掘出不同的信息与知识出来,作为决策支持之用,必能产生企业的竞争优势。

DataMining可说会合了以下六种领域:

●Databasesystems,DataWarehouses,OLAP

●Machinelearning

●Statisticalanddataanalysismethods

●Visualization

●Mathematicalprogramming

●Highperformancecomputing

DataMining应用的行业包括了金融业、电信业、零售商、直效行销、制造业、医疗保健及制药业等等,应用领域如下表:

ApplicationsofDataMining

Customer-focused

Operations-focused

Research-focused

●Life-timeValue

●Market-BasketAnalysis

●Profiling&Segmentation

●Retention

●TargetMarket

●Acquisition

●KnowledgePortal

●Cross-Selling

●CampaignManagement

●E-Commerce

●ProfitabilityAnalysis

●Pricing

●FraudDetection

●RiskAssessment

●PortfolioManagement

●EmployeeTurnover

●CashManagement

●ProductionEfficiency

●NetworkPerformance

●NetworkPerformance

●ManufacturingProcesses

●CombinatorialChemistry

●GeneticResearch

●Epidemiology

 

现今计算机运算能力的跃进,以及数据储存技术的进步,数据仓储的广泛建置,加上企业行销策略转为针对单一消费者个人行销,更突显DataMining对于企业的迫切性。

Whydoweneeddatamining?

–Largenumberofrecords(cases)(108-1012bytes)

–Highdimensionaldata(variables)(10-104attributes)

–Onlyasmallportion,typically5%to10%,ofthecollecteddataiseveranalyzed.

–Datathatmayneverbeexploredcontinuestobecollectedoutoffearthatsomethingthatmayproveimportantinthefuturemaybemissing.

–Magnitudeofdataprecludesmosttraditionalanalysis(moreoncomplexitylater).

 DataMining和统计分析有什么不同?

硬要去区分DataMining和Statistics的差异其实是没有太大意义的。

一般将之定义为DataMining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,DataMining有相当大的比重是由高等统计学中的多变量分析所支撑。

但是为什么DataMining的出现会引发各领域的广泛注意呢?

主要原因在相较于传统统计分析而言,DataMining有下列几项特性:

1.       处理大量实际资料更强势,且无须太专业的统计背景去使用DataMining的工具;

2.       数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,DataMining的工具更符合企业需求;

3.       纯就理论的基础点来看,DataMining和统计分析有应用上的差别,毕竟DataMining目的是方便企业末端用者使用而非给统计学家检测用的。

数据仓储、KDD、Datamining的关系

若将DataWarehousing(资料仓储)比喻作矿坑,DataMining就是深入矿坑采矿的工作。

毕竟DataMining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待DataMining能挖掘出什么有意义的信息的。

要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。

随着科技的进步,功能完善的数据库系统就成了最好的收集资料的工具。

「数据仓储」,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。

所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(DesignSupportSystem)所需的数据,供决策支持或数据分析使用。

从信息技术的角度来看,数据仓储的目标是在组织中,在正确的时间,将正确的数据交给正确的人。

许多人对于数据仓储(DataWarehouse)和数据挖掘(DataMining)时常混淆,不知如何分辨。

其实,数据仓储是数据库技术的一个新主题,在数据科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。

另外,决策支持系统和主管信息系统也日渐普遍,它们操作数据的方式不尽相同,因而有必要把作业性数据库和数据仓储分隔开来,利用不同数据库系统与技术操作,才能达系统最佳化。

由于关系型数据库、平行处理及分布式数据库技术的进步,不论是主从式架构或主机型架构的数据库系统,资料仓储技术皆可以利用原有作业中或已有的(Legacy)系统,进而提供一个稳固的基础以支持全公司的决策支持系统(DSS)。

数据仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指从在线处理系统(OLTP)所得来的数据。

将这些整合过的数据置放于数据仓储中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓储最大的挑战。

因为将作业中的数据转换成有用的的策略性信息是整个数据仓储的重点。

也就是,数据仓储应该具有这样的数据:

整合性数据(integrateddata)、详细和汇总性的数据(detailedandsummarizeddata)、历史数据、解释数据的数据(Metadata)。

如果数据仓储集合具有成功有效率地探测数据的世界,则挖掘出决策有用的数据与知识,是建立数据仓储与使用DataMining的最大目的。

而从数据仓储挖掘有用的数据,则是DataMining的研究重点,两者的本质与过程是两码事。

换句话说,数据仓储应先行建立完成,Datamining才能有效率的进行,因为数据仓储本身所含数据是「干净」(不会有错误的数据参杂其中)、完整的,而且是整合在一起的。

因此,或许可说DataMining是从巨大数据仓储找出有用信息之一种过程与技术。

OLAP能不能代替DataMining?

所谓OLAP(OnlineAnalyticalProcess)意指由数据库所连结出来的在线查询分析程序。

有些人会说:

「我已经有OLAP的工具了,所以我不需要DataMining。

」事实上两者间是截然不同的,主要差异在于DataMining用在产生假设,OLAP则用于查证假设。

简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而DataMining则是用来帮助使用者产生假设。

所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但DataMining是用工具在帮助做探索。

举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但DataMining则不然,执行DataMining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。

DataMining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以DataMining此种自动找出甚或不会被怀疑过的数据型样与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和DataMining互补,但这项特性是DataMining无法被OLAP取代的。

KDD(KnowledgeDiscoveryinDatabase)和DataMining的关系也是需要厘清的,根据Fayyad等人对KDD的定义:

「ThenontrivialProcessofidentifyingvalid、novel、potentiallyuseful,andultimatelyunderstandablepatternindata」,其流程步骤是:

先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择(Selection)之数据子集;再从目的数据中作前置处理(Pre-processing),去除错误或不一致的数据;然后作数据简化与转换工作(Transformation);在经由「DataMining」的技术程序成为样型(Patterns)、做回归分析或找出分类型态;最后经过「Interpretation/Evaluation」成为有用的知识。

这些程序是一个循环的关系,一直重复的步骤,最后才得到一些有用的知识。

所以,KDD是一连串的程序,DataMining是其中的一个步骤而已。

总而言之,DataMining,Datawarehouse,KDD三者的关系可以如此厘清,即Datawarehouse是一个经过处理、整合之数据库,而KDD是一种知识发现的一连串程序,DataMining只是KDD的一个重要程序。

它们最终目的,乃为组织取得决策支持所需的信息,这个信息是突破盲点、见人所未见的知识和讯息,能替组织取得竞争优势。

DataMining的功能

一般而言,DataMining功能可包含下列五项功能:

?

分类(classification)

?

推估(estimation)

?

预测(prediction)

?

关联分组(affinitygrouping)

?

同质分组(clustering)

兹将这些功能的意义及可能使用的技巧简述如下:

分类

按照分析对象的属性分门别类加以定义,建立类组(class)。

例如,将信用申请者的风险属性,区分为高度风险申请者,中度风险申请者及低度风险申请者。

使用的技巧有决策树(decisiontree),记忆基础推理(memory-basedreasoning)等。

推理

根据既有连续性数值之相关属性数据,以获致某一属性未知之值。

例如按照信用申请者之教育程度、行为别来推估其信用卡消费量。

使用的技巧包括统计方法上之相关分析、回归分析及类神经网络方法。

预测

根据对象属性之过去观察值来推估该属性未来之值。

例如由顾客过去之刷卡消费量预测其未来之刷卡消费量。

使用的技巧包括回归分析、时间数列分析及类神经网络方法。

关联分组

从所有对象决定那些相关对象应该放在一起。

例如超市中相关之盥洗用品(牙刷、牙膏、牙线),放在同一间货架上。

在客户行销系统上,此种功能系用来确认交叉销售(cross-selling)的机会以设计出吸引人的产品群组。

同质分组

将异质母体中区隔为较具同构型之群组(clusters)。

同质分组相当于行销术语中的区隔化(segmentation),但是,假定事先未对于区隔加以定义,而数据中自然产生区隔。

使用的技巧包括k-means法及agglomeration法。

 

DataMining的应用

DataMining导入企业,其重点在于企业领域方面的知识,而它的Domain-specificTools要结合企业中使用者的语言和分析过程,才能发挥工具的效能与增进企业的智慧。

换句话说,就是要颠覆常规和超越平日的想象,展现企业目标与问题的知识,以支持解释别人看不到、看不出的信息来。

企业必须能够从巨大数据库中挖掘到浓缩、先前不知、可理解的信息,并从使用中获利。

例如,一个发行管理共同基金(mutualfunds)的企业体要发掘潜在客户,它要能整合客户的账户、人口统计、生活型态等数据。

也就是说要能把数据库中人口数据切分成为一些关键子集合:

都市化情况、婚姻状态、家庭所得、年龄、风险偏好、高净值等。

最后,依据资料挖宝分析结果,可区分集群和从事推广促销活动,成功的把共同基金推展至市场上。

目前企业界把DataMining应用在许多领域。

例如,行销、财务、银行、制造厂、通讯等。

并且产学合作下,发展出许多实用的系统,例如MDT、CoverstoryandSpotlight、NichWorkvisualizationsystem、LBS、FALCON、FAIS、NYNEX、TASA等等。

这些数据发掘的系统,应用非常广泛,例如有一个应用在行销领域的例子:

经由记录客户的消费记录与采购路线,超级市场可以设计出更吸引顾客购买的环境。

根据数据挖掘出特别的信息来,因此现在超级市场的厨房用品,是按照女性的视线高度来摆放。

根据研究指出:

美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130至135公分之间。

企业界实际发展DataMining时,效能并不能预期,因为有许多因素影响着。

例如,不充足的教育训练、不适当的支持工具、数据的无效性、过于丰富的样型(patterns)、多变与具时间性的数据、空间导向数据(spatiallyorienteddata)、复杂的数据型态、数据的衡量性(scalability)。

这说明数据与知识的发掘是一项信息丰富性的工作,面对易变的环境,没有现成的Model马上可用,也不要期望按照程序即能成功。

因此,我们要体会一些潜在的因素,如数据取舍、实体关系性、数量多寡、复杂性、数据质量、可取得性、变迁、专家意见等因素,才能做好资料挖掘工作。

DataMining对每个公司来说都是一种重要的策略性的的计划,而将之列为高度机密,所以要调查各家公司到底用DataMining来做什么样的事其实相当不容易。

根据TwoCrowsCorp.最近的调查显示,DataMining主要的三个应用方式-如我们所预期的-都在市场推广方面,分别是:

CustomerProfiling、TargetedMarketing、以及Market-BasketAnalysis。

在CustomerProfiling方面,我们希望找出客户的一些共同的特征,希望能藉此预测哪些人可能成为我们的客户,以帮助行销人员找到正确的行销对象。

DataMining可以从现有客户数据中找出他们的特征,再利用这些特征到潜在客户数据库里去筛选出可能成为我们客户的名单,作为行销人员推销的对象。

行销人员就可以只针对这些名单寄发广告数据,以降低成本,也提高行销的成功率。

Market-BasketAnalysis主要是用来帮助零售业者了解客户的消费行为,譬如哪些产品客户会一起购买,或是客户在买了某一样产品之后,在多久之内会买另一样产品等等。

利用DataMining,零售业者可以更有效的决定进货量或库存量,或是在店里要如何摆设货品,同时也可以用来评估店里的促销活动的成效。

客户关系的管理是DataMining的另一个常见的应用方式。

我们可以由一些原本是我们的客户,后来却转而成为我们竞争对手的客户群中,分析他们的特征,再根据这些特征到现有客户数据中找出有可能转向的客户,然后公司必须设计一些方法将他们留住,因为毕竟找一个新客户的成本要比留住一个原有客户的成本要高出许多。

近来电话公司、信用卡公司、保险公司、股票交易商、以及政府单位对于诈欺行为的侦测(FraudDetection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观。

DataMining可以找出可能的诈欺交易,减少损失。

财务金融业可以利用DataMining来分析市场动向,并预测个别公司的营运以及股价走向。

DataMining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。

下面是一些DataMining的在科学、行销、工业、商业、体育…等各方面运用的类型:

●在财务金融方面,预测市场动向,防范犯罪诈欺。

●分析客户的行为,可以让您看出您的客户是不是准备要转向您的竞争对手。

数据挖采中的前后行为分析(SequentialPatternDetection)功能让您分析那些已经转向您的竞争对手的客户在转向期间的行为,如此您就可以在现有客户中找到可能转向的客户,想办法留住他们。

●数据挖采可以帮您找出从前的一些信用不良的客户的特征,而从这些特征您就可以从现有客户中找出可能有不良信用的客户,防止产生坏账,也可以过滤这些人成为您的客户。

●数据挖采中的客户分类(Segmentation)功能,可以让您更了解您所服务的客户,这样您就可以设计更好的产品来满足您的客户的需求。

●商业智慧所要解决的问题还包括如何减低诈欺或不实的申报(Fraud)。

利用资料挖采的技术,您可以在特定的客户群中找出可能的诈欺行为,如此才能减少损失,增加利润。

●如果采用不同的价格策略,是否能增加市场占有率?

●什么时候才是推出新产品的好时机?

●我们与竞争对手的优劣势如何?

●让我们获利高的客户们有什么共同的特征?

●当我们的客户要转向我们的竞争对手之前,是否有何前兆?

●如何认定客户的信用风险状况?

●如何设计更好的保险产品来吸引客户,让客户满意?

●一个经纪人在一个星期中应该可以卖出多少共同基金?

●于销售资料中,发掘顾客的消费习性

●根据以往审核的资料,找寻核发信用卡的规则

●在NBA球赛数据中,找出球员的强弱点

●从消费及缴费数据中,预警信用卡呆帐可能

●从通话记录数据中,预警盗打电话可能

●从宇宙飞船拍摄的影像数据,找寻星球上的火山

●   星际星体分类

 

WebMining和DataMining有什么不同?

如果将Web视为CRM的一个新的Channel,则WebMining便可单纯看做DataMining应用在网络数据的泛称。

该如何测量一个网站是否成功?

哪些内容、优惠、广告是人气最旺的?

主要访客是哪些人?

什么原因吸引他们前来?

如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素?

以上种种皆属WebMining分析之范畴。

WebMining不仅只限于一般较为人所知的logfile分析,除了计算网页浏览率以及访客人次外,举凡网络上的零售、财务服务、通讯服务、政府机关、医疗咨询、远距教学等等,只要由网络连结出的数据库够大够完整,所有Off-Line可进行的分析,WebMining都可以做,甚或更可整合Off-Line及On-Line的数据库,实施更大规模的模型预测与推估,毕竟凭借因特网的便利性与渗透力再配合网络行为的可追踪性与高互动特质,一对一行销的理念是最有机会在网络世界里完全落实的。

整体而言,WebMining具有以下特性:

1.资料收集容易且不引人注意,所谓凡走过必留下痕迹,当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的;2.以交互式个人化服务为终极目标,除了因应不同访客呈现专属设计的网页之外,不同的访客也会有不同的服务;3.可整合外部来源数据让分析功能发挥地更深更广,除了logfile、cookies、会员填表数据、在线调查数据、在线交易数据等由网络直接取得的资源外,结合实体世界累积时间更久、范围更广的资源,将使分析的结果更准确也更深入

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 交规考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1