数据挖掘技术分析与研究Word格式.doc

资源描述

数据挖掘技术分析与研究Word格式.doc

《数据挖掘技术分析与研究Word格式.doc》由会员分享，可在线阅读，更多相关《数据挖掘技术分析与研究Word格式.doc（7页珍藏版）》请在冰豆网上搜索。

数据挖掘技术分析与研究Word格式.doc

Mining）技术由此应运而生。

本文主要介绍了数据挖掘的基本概念、数据挖掘的过程、数据挖掘所需的工具、数据挖掘的任务、数据挖掘未来的研究方向、数据挖掘的应用领域和未来发展所面临的一些问题。

关键字：

数据挖掘

数据挖掘工具

QUEST

DBMiner

网站数据挖掘

研究方向

应用领域

引言

数据是知识的源泉。

但是,拥有大量的数据与拥有许多有用的知识完全是两回事。

过去几年中,从数据库中发现知识这一领域发展的很快。

广阔的市场和研究利益促使这一领域的飞速发展。

计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。

收集数据是为了得到信息,然而大量的数据本身并不意味信息。

尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。

在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。

然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个折扣。

目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。

数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。

数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。

目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。

数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。

数据挖掘技术

一、数据挖掘的概念

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程，这些信息的表现形式为：

规则、概念、规律及模式等。

它可帮助决策者分析历史数据及当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。

数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的过程

数据挖掘是指一个完整的过程，该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息，并使用这些信息做出决策或丰富知识。

下图描述了数据挖掘的基本过程和主要步骤

可视化工具

数据挖掘工具

数据库

三、数据挖掘的工具

在数据挖掘技术日益发展的同时，许多数据挖掘的商业软件工具也逐渐问世。

数据挖掘工具主要有两类：

特定领域的数据挖掘工具和通用的数据挖掘工具。

下面简单介绍两种数据挖掘工具：

1.QUEST

QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统，目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。

系统具有如下特点：

u提供了专门在大型数据库上进行各种开采的功能：

关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。

u各种开采算法具有近似线性（O（n））计算复杂度，可适用于任意大小的数据库。

u算法具有找全性，即能将所有满足指定类型的模式全部寻找出来。

（4）为各种发现功能设计了相应的并行算法。

2.DBMiner

DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统，它的前身是DBLearn。

该系统设计的目的是把关系数据库和数据开采集成在一起，以面向属性的多级概念为基础发现各种知识。

DBMiner系统具有如下特色：

u能完成多种知识的发现：

泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。

u综合了多种数据开采技术：

面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。

u实现了基于客户/服务器体系结构的Unix和PC（Windows/NT）版本的系统。

u提出了一种交互式的类SQL语言——数据开采查询语言DMQL。

四、数据挖掘技术的任务

数据挖掘技术主要有四种开采任务：

u数据总结是对数据进行浓缩,给出它的紧凑描述。

数据挖掘是从数据泛化的角度来讨论数据总结。

u分类发现这是一项非常重要的任务,分类是运用分类器把数据库中的数据项映射到给定类别中的某一个,用于对未来数据进行预测。

u聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。

u关联规则是指事物之间的联系具有多大的支持度和可信度。

有意义的关联规则必须给定两个阈值：

最小支持度和最小可信度。

数据挖掘未来的研究方向和热点

一、数据挖掘未来的研究方向

当前，数据挖掘研究方兴未艾，其研究与开发的总体水平相当于数据库技术在70年代所处的地位，迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导，才能使数据挖掘的应用得以普遍推广。

预计在本世纪数据挖掘的研究还会形成更大的高潮，研究焦点可能会集中到以下几个方面：

n寻求数据挖掘过程中的可视化方法，使知识发现的过程能够被用户理解，也便于在知识发现的过程中进行人机交互；

n发现语言的形式化描述，即研究专门用于知识发现的数据挖掘语言，也许会像SQL语言一样走向形式化和标准化；

n研究在网络环境下的数据挖掘技术（WebMining），特别是在因特网上建立数据挖掘服务器，并且与数据库服务器配合，实现WebMining；

n处理的数据将会涉及到更多的数据类型，这些数据类型或者比较复杂，或者是结构比较独特。

为了处理这些复杂的数据，就需要一些新的和更好的分析和建立模型的方法，同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。

n加强对各种非结构化数据的开采（DataMiningforAudio＆Video），如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采；

交互式发现和知识的维护更新。

二、分析

随着Web技术的发展，各类电子商务网站风起云涌，建立起一个电子商务网站并不困难，困难的是如何让您的电子商务网站有效益。

要想有效益就必须吸引客户，增加能带来效益的客户忠诚度。

电子商务业务的竞争比传统的业务竞争更加激烈，原因有很多方面，其中一个因素是客户从一个电子商务网站转换到竞争对手那边，只需点击几下鼠标即可。

网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。

而同时电子商务网站每天都可能有上百万次的在线交易，生成大量的记录文件（Logfiles）和登记表，如何对这些数据进行分析和挖掘，充分了解客户的喜好、购买模式，甚至是客户一时的冲动，设计出满足于不同客户群体需要的个性化网站，进而增加其竞争力，几乎变得势在必行。

若想在竞争中生存进而获胜，就要比您的竞争对手更了解客户。

三、电子商务网站数据挖掘

在对网站进行数据挖掘时，所需要的数据主要来自于两个方面：

一方面是客户的背景信息，此部分信息主要来自于客户的登记表；

而另外一部分数据主要来自浏览者的点击流（Click-stream），此部分数据主要用于考察客户的行为表现。

但有的时候，客户对自己的背景信息十分珍重，不肯把这部分信息填写在登记表上，这就会给数据分析和挖掘带来不便。

在这种情况之下，就不得不从浏览者的表现数据中来推测客户的背景信息，进而再加以利用。

就分析和建立模型的技术和算法而言，网站的数据挖掘和原来的数据挖掘差别并不是特别大，很多方法和分析思想都可以运用。

所不同的是网站的数据格式有很大一部分来自于点击流，和传统的数据库格式有区别。

因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。

目前，有很多厂商正在致力于开发专门用于网站挖掘的软件。

数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。

目前，在很多领域，数据挖掘（data

mining）都是一个很时髦的词，尤其是在如银行、电信、保险、交通、零售（如超级市场）等商业领域。

数据挖掘不仅是面向特定数据库的简单检索查询调用，而且要对这些数据进行微观、中观乃至宏观的统计，分析，综合和推理，以指导实际问题的求解，企图发现事件间的相互关联，甚至利用已有的数据对未来的活动进行预测。

一、在科学研究中应用

从科学研究方法学的角度看，科学研究可分为三类:

理论科学、实验科学和计算科学。

计算科学是现代科学的一个重要标志。

计算科学工作者主要和数据打交道，每天要分析各种大量的实验或观测数据。

随着先进的科学数据收集工具的使用，如观测卫星、遥感器、DNA分子技术等，数据量非常大，传统的数据分析工具无能为力，因此必须有强大的智能型自动数据分析工具才行。

数据挖掘在天文学上有一个非常著名的应用系统:

SKICAT

（Sky

Image

Cataloging

and

Analysis

Tool）。

它是美国加州理工学院喷气推进实验室（即设计火星探测器漫游者号的实验室）与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。

SKICAT既是第一个获得相当成功的数据挖掘应用，也是人工智能技术在天文学和空间科学上第一批成功应用之一。

利用SKICAT,天文学家已发现了16个新的极其遥远的类星体，该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。

数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。

基因研究中，有一个著名的国际性研究课题——人类基因组计划。

据报道，1997年3月，科学家宣布已完成第一步计划:

绘制人类染色体基因图。

然而这仅仅是第一步，更重要的是对基因图进行解释从而发现各种蛋白质（有10,000多种不同功能的蛋白质）和RNA分子的结构和功能。

近几年，通过用计算生物分子系列分析方法，尤其是基因数据库搜索技术己在基因研究上作出了很多重大发现。

二、在商业上的应用

在商业领域特别是零售业，数据挖掘的运用是比较成功的。

由于MIS系统在商业的普遍使用，特别是码技术的使用，可以收集到大量关于购买情况的数据，并且数据量在不断激增。

利用数据挖掘技术可以为经营管理人员提供正确的决策手段，这样对促进销售及提高竞争力是大有帮助的。

三、在金融上的应用

在金融领域，数据量是非常巨大的，银行、证券公司等交易数据和存储量都是很大的。

而对于信用卡欺诈行为，银行每年的损失非常大。

因此，可以利用数据挖掘对客户信誉进行分析。

典型的金融分析领域有投资评估和股票交易市场预测。

四

展开阅读全文