数据挖掘技术的应用研究与发展现状论文.docx

资源描述

数据挖掘技术的应用研究与发展现状论文.docx

《数据挖掘技术的应用研究与发展现状论文.docx》由会员分享，可在线阅读，更多相关《数据挖掘技术的应用研究与发展现状论文.docx（12页珍藏版）》请在冰豆网上搜索。

数据挖掘技术的应用研究与发展现状论文.docx

数据挖掘技术的应用研究与发展现状论文

信息工程学院课程结课论文

数据挖掘技术的应用研究及开展现状

课程名称：

信息检索与科技论文写作

专业：

计算机应用技术

班　　级：

计算机民专12

学　　号：

5032108123

姓　　名：

艾克白尔·阿力甫

任课教师：

曹洪武

数据挖掘技术的应用研究及开展现状

一、课题分析

数据挖掘是近年来随着数据库和人工智能技术的开展而出现的一种全新信息技术，也是计算机科学与技术，尤其是计算机网络的开展和普遍使用所提出的而且迫切需要解决的重要课题。

数据挖掘是指从数据中提取模式的过程，数据挖掘的提出，让人们最终有能力认识数据的真正价值，即蕴藏在数据中的信息和知识。

数据挖掘技术的产生，使得用户可以从大量的数据中发现隐含的规律，从而为决策提供更可靠的依据。

数据挖掘必须建立在结构化良好的数据根底之上，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据，同时可以很好的定义和解释相关的查询语言。

由于web上存在许多半结构化数据，即便在web上得到一些相关数据，将其用于挖掘和分析也是相当困难的，因此，面向web的数据挖掘要比面向单个数据仓库中的数据挖掘要复杂的多。

由于Internet和WWW的广泛应用，出现了基于异构数据源的数据挖掘，如文档数据挖掘、时间序列数据挖掘、电子商务系统中的数据挖掘。

伴随数据库技术的开展，多媒体数据库的数据挖掘、空间数据库的数据挖掘等也引起了许多人的关注。

Internet的迅猛开展，尤其是Web的全球普及，使得Web上信息量无比丰富。

通过对Web的挖掘，可从Web页面中提取所需的知识:

对总的用户访问行为、频度、内容的分析，可得到关于群体用户访问行为和方式的普遍知识，用以改良Web效劳设计。

更重用的是，通过对这些用户特征的理解和分析，有助于开展有对性的电子商务活动。

随着数据挖掘和万维网技术的结合，使得从收集到的访问Internet网页的网站日志记录中进行数据挖掘成为可能。

将数据挖掘技术应用于Web日志记录，来发现用户访问Web页面的模式，便形成了Web访问模式挖掘。

它对于优化站点结构、为不同类别的用户提供个性化效劳，有效地实现信息获取和信息推送是非常必要的。

Web访问模式挖掘是目前数据挖掘领域的热点课题之一，也是Web日志挖掘的主要目标之一，本文的研究目的是发现更多有意义的序列模式。

本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程。

通基于Web志的数据挖掘的讨论，说明如何进行Web日志挖掘以及在Web日志挖掘中应采取的数据挖掘技术。

在数据预处理方面，本文设计了基于最大参引模型和时间窗口模型的访问事务划分方法；在模式挖掘方面，本文在Apriori算法和有向图存储结构的根底上，提出了会话矩阵和遍历矩阵的概念，设计了Web用户频繁路径快速挖掘算法。

二、检索策略：

1、中图分类号：

TP311

2、关键词：

数据挖掘，Web日志挖掘，频繁路径

3、检索式：

题名=〔数据挖掘技术〕关键词=〔数据挖掘技术应用〕及研究、开展现状

三检索步骤和结果：

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

何为知识？

从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规那么、模式、规律和约束等看作知识。

人们把数据看作是形成知识的源泉，好似从矿石中采矿或淘金一样。

原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。

发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。

因此，数据挖掘是一门综合交叉学科，它综合了机器学习、统计分析和数据库技术，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。

在这种需求牵引下，会聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。

需要说明的是，这里所说的知识发现，不是要求发现放之四海而皆准的真理，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。

所有发现的知识都是相对的，是有特定前提和约束条件、面向特定领域的，同时还要能够易于被用户理解，最好就能用自然语言表达发现结果，因此DMKD〔数据挖掘和知识发现〕的研究成果是要讲求实际的。

2、根据所选课题，运用直接浏览法检出其相关文献：

期刊论文：

[1]陈春颖,熊拥军.[J].图书情报知识,2021.

[2]林颖.[J].重庆理工大学学报（自然科学）,2021.

[3]张长海,胡孔法,陈崚,宋爱波.[J].高技术通讯,2021.

[4]李广原,杨炳儒,刘永彬,刘英华.[J].计算机工程与设计,2021.

[5]朱红,陈星霖.[J].计算机平安,2021.

[6]周坤,王爱荣,张敬谊,熊赟,朱扬勇.[J].计算机应用与软件,2021.

[7]公伟,刘培玉,贾娴.[J].计算机应用,2021.

[8]张韬,胡旻.[J].卫星与网络,2021.

[9]王艳.[J].知识经济,2021.

[10]杜垒,王飞.[J].科技信息,2021.

3、选择中文数据库检出其与课题相关文献：

（1）、使用?

中国知网?

数据库检索与课题相关文献：

检索式：

题名=〔数据挖掘技术应用〕关键词=〔数据挖掘技术的研究及开展现状〕

序号

题名

作者

作者单位

文献来源

发表时间

被引频次

下载

频次

中国人民解放军信息工程大学

【博士】

2004-10-01

3125

浙江大学

【博士】

2005-05-01

2385

吉林大学

【博士】

2004-04-01

2361

北京工业大学

【博士】

2003-04-01

2128

吉林大学

【博士】

2004-05-01

2076

浙江大学

【博士】

2003-02-01

1950

西北工业大学

【博士】

2003-12-01

1872

大连理工大学

【博士】

2004-03-01

1745

广东商学院信息学院广州

【期刊】

2006-07-20

1743

天津大学

【博士】

2006-12-01

1585

华中科技大学

【博士】

2006-11-01

1485

基于Web日志的数据挖掘技术研究

西安理工大学

【硕士】

2021-03-01

（2）、根据所选课题，使用我校图书馆网站馆藏书目数据库检出其相关文献：

[1]数据挖掘概念与技术〔原书第2版〕〔加〕韩家炜，堪博　著，范明，孟小峰　译/2007年03月/机械工业出版社

[2]Web数据挖掘〔世界著名计算机教材精选〕〔美〕刘兵〔Liu，B.〕著，俞勇等译/2021年04月/清华大学出版社

[3]数据挖掘导论（完整版）〔美〕陈封能，〔美〕斯坦巴赫，〔美〕库玛尔　著，范明　等译/2021年01月/人民邮电出版社

[4]数据仓库与数据挖掘原理及应用（第二版）王丽珍　等编著/2021年09月/科学出版社

[5]数据挖掘：

概念与技术〔英文版·第2版〕〔加〕韩家炜等著/2006年04月/机械工业出版社

[6]数据挖掘实用机器学习技术〔原书第2版〕〔新西兰〕威滕〔Witten,I.H.〕，〔新西兰〕弗兰克〔Frank,E.〕著，董琳等译/2006年07月/机械工业出版社

[7]数据挖掘与数学建模廖芹，赫志峰，陈志宏编著/2021年02月/国防工业出版社

[8]数据仓库与数据挖掘原理及应用郑岩　编著/2021年01月/清华大学出版社　

[9]数据挖掘算法与Clementine实践熊平著/2021年04月/清华大学出版社　　

[10]数据仓库与数据挖掘〔重点大学计算机专业系列教材〕陈志泊主编，韩慧等编著/2021年05月/清华大学出版社

[11]Web数据挖掘：

超文本数据的知识发现（英文版）〔印〕查凯莱巴蒂著/2021年02月/人民邮电出版社

数据挖掘技术的应用研究及开展现状

学生：

艾克白尔·阿力甫指导教师：

曹洪武

〔塔里木大学信息工程学院　计算机民专12-1〕

摘要：

在Internet电子商务网站中，客户浏览信息被Web效劳器自动收集，并保存在访问日志、引用日志和代理日志中。

有效地对这些Web日志进行定量分析，揭示用户兴趣路径等，不但可以为优化Web站点的拓扑结构提供参考，而且还可以为企业制定更有效的市场营销策略提供依据，使其及时改良决策，获得更大的竞争优势目前，Web日志的挖掘研究主要集中在用户浏览模式的获取上，算法有Apriori算法，最大向前序列法和树形拓扑结构法等。

它们先将日志中的用户浏览历史记录转换成一个浏览子序列集：

最大向前序列法根据用户折返的特性形成假设干浏览子序列；参考长度法根据用户在网页上停留的时间形成假设干个浏览子序列；树形拓扑结构法那么把整个日志当作浏览子序列。

然后利用关联规那么法对浏览子序列进行挖掘找出频繁访问路径。

以上算法单纯地考虑了浏览频度，简单地认为用户的浏览频度就反响了用户的访问兴趣，这很不精确。

网页浏览频度的影响因素有很多，其中的页面放置位置和其它页面对该页面的链接都起着非常重要的作用。

但其中个性较为鲜明的是利用矩阵进行运算开掘，矩阵不仅能准确表示Web站点有向图，而且能有效存储用户访问信息，矩阵可以进行压缩，节约大量空间和时间。

在Apriori算法中，把所有的项集元素在每个事务中作统计和筛选，所以耗时很多，但结果精确。

考虑了以上算法的优点，有必要提出一种可正确挖掘不同用户浏览兴趣路径的算法。

即考虑了算法的快速性，又考虑了开掘结果的准确性。

关键字：

数据挖掘技术、挖掘算法、Web数据挖掘

1目前的研究技术

何为知识？

从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规那么、模式、规律和约束等看作知识。

人们把数据看作是形成知识的源泉，好似从矿石中采矿或淘金一样。

原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。

发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。

2数据挖掘技术分析

数据挖掘是一个完整的过程，该过程从大型的数据库中挖掘先前未知的、有效的、可使用信息，并使用这些信息做出决策或丰富知识。

数据挖掘环境如下所示:

图2－1数据挖掘环境

图2-1描述了数据挖掘环境，数据挖掘工具从数据库中抽取有用的信息，由可视化工具表达给用户。

数据挖掘的根本过程和主要步骤如下:

〔1〕确定业务对象清晰地定义出业务问题，认清数据挖掘的目的是数据挖掘的重要一步。

挖掘的最后结果是不可预测的，但要探索的问题应是有预见的，为了数据挖掘而数据挖掘那么带有盲目性，是不会成功的。

〔2〕数据准备

1）数据的选择:

搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。

2）数据的预处理:

研究数据的质量，为进一步的分析做准备，并确定将要进行的挖掘操作的类型。

3）数据的转换:

将数据转换成一个分析模型。

这个分析模型是针对挖掘算法建立的，建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

4〕数据挖掘：

对所得到的经过转换的数据进行挖掘。

除了完善从选择适宜的挖掘算法外，其余一切工作都能自动地完成。

5〕结果分析：

解释并评估结果。

其使用的分析方法一般应作数据挖掘操作而定，通常会用到可视化技术。

3信息挖掘技术算法

1〕人工神经网络:

人工神经网络从结构上模仿生物神经网络，以求到达模拟人类的形象直觉思维的目标。

人工神经网络技术利用其非线性映射的思想和并行处理的方法，用神经网络本身结构可以表达输入与输出的关联知识。

人工神经网络建立在可以自学习的数学模型的根底之上。

它可以对大量复杂的数据进行分析;并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。

其比拟典型的学习方法是回溯法。

它通过将输出结果同一些值进行一系列比拟;加权值不断调整;得到一个新的输出值，再通过不断学习、调整网络结构，最后以特定的网络结构来表达输入空间与输出空间的映射关系，是一种通过训练来学习的非线性预测模型，可以完成分类、聚类、特征挖掘等多种数据挖掘任务。

2〕决策树法：

决策树是通过一系列规那么对数据进行分类的过程。

它以信息论中的互信息（信息增益）原理为根底寻找数据库中具有最大信息量的字段建立决策树的一个结点，再根据字段的不同取值建立树的分枝；在每个分枝中集中重复建树的下层结点和分枝的过程，即可建立决策树。

采用决策树，可以将数据规那么可视化，其输出结果也容易理解。

该类方法的实用效果好，影响较大。

3〕遗传算法：

遗传算法是一种较新的非线性优化技术。

它基于生物进化理论中的基因重组、突变和自然选择等概念设计一系列的过程来到达优化的目的。

遗传算法作用于对某一特定问题的一组可能的解法，试图通过基因组合、交叉、变异过程来组合或“繁殖〞现存的最好的解法来产生一个新的解集，然后利用基于“适者生存〞的理论的自然选择方法来使较差的解法被抛弃，使繁殖的结果得到改善，从而产生更好的解集.为了应用遗传算法，我们需要把数据挖掘任务表达为一种搜索问题而发挥遗传算法的优化搜索能力。

4〕统计学方法:

利用统计学原理对数据库中的信息进行分析。

可进行常用统计（求大量数据中的最大值，最小值，总和，平均值等），回归分析（求回归方程来表示变量间的数量关系），相关分析（求相关系数来度量变量间的相关程度），差异分析（A样本统计量的值得出差异来确定总体参数之间是否存在差异）等。

5〕粗糙集方法:

粗集理论是近年来才兴起的研究不精确、不确定性知识的表达、学习、归纳等方法。

它模拟人类的抽象逻辑思维，以各种更接近人们对事物的描述方式的定性、定量或者混合信息为输入，输入空间与输出空间的映射关系是通过简单的决策表简化得到的。

它通过考察知识表达中不同属性的重要性，来确定哪些知识是冗余的，哪些知识是有用的。

简化知识表达空间是基于不可分辨关系的思想和知识简化的方法来进行的，从数据中抽取推理逻辑规那么作为知识系统的模型。

它是基于一个机构（或一组机构）关于一些现实的大量数据信息，以对观察和测量所得数据进行分类的能力为根底，从中发现、推理知识和分辨系统的某些特点、过程、对象等。

6〕规那么推理方法:

该方法在训练集中搜集规那么空间寻找对目标数据进行分类的最有效的规那么（一般用if－then形式表示）。

7〕可视化技术:

可视化数据分析技术拓宽了传统的图表功能，使用户对数据的剖析更清楚。

8〕聚类法:

聚类算法是通过对变量的比拟，把具有相似特征的数据归于一类。

通过聚类以后，数据集就转化为类集，在类集中同一类中数据具有相似的变量值，不同类之间数据的变量值不具有相似性。

区分不同的类是属于数据挖掘过程的一局部。

应注意这些类不是事先定义好的，而是通过聚类算法采用全自动方式获得的。

通常，聚类过程是数据挖掘过程的第一个阶段。

它首先把数据区分于不同的类，以便于做进一步的分析。

9〕数据仓库:

数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、随时间而变化的、持久的数据集合，用以支持经营管理中的决策制定过程。

通常由一些小型数据库构成，其主体是由关系数据库构成，但某些层次的数据也可能由其它类型的数据（如多维数据）组成，它兼备数据集成、分析和处理的功能，支持包括等技术在内的多维数据库处理技术。

数据仓库为数据挖掘提供了以分形方式储存的多维数据库管理、集成功能，以及像在线分析处理（OnlineAnalyticalProcessing,OLAP）和在线事务处理（OnlineTransactionProcessing，OLTP）等快速、简单的数据分析手段。

而数据挖掘技术那么是建造高水平数据仓库应用的核心技术。

4Web数据挖掘的特点

数据挖掘技术就是从大量数据集合中发现有效、新颖、潜在有用的、可理解的模式。

但是数据挖掘的绝大局部工作所涉及的结构化数据库，很难处理Web上的异质、非结构化信息的工作。

所以面对巨大的网络系统和丰富的信息资源，研究者将传统的数据挖掘技术和Web相结合，进行Web挖掘。

Web挖掘可以在很多方面发挥作用，如对搜索引擎的结果进行挖掘、确定权威页面、Web文档分类、WebLog挖掘、电子商务等。

Internet是一个巨大、分布广泛、全球性的信息效劳中心，它涉及新闻、广告、教育、电子商务和其它信息效劳。

Web还包含丰富的动态超链接信息，以及Web页面的访问信息，为Web挖掘提供了丰富的资源。

下面说明Web挖掘比数据挖掘所具有更大的难度:

1〕由于Web中资源主要有Web页面构成，而Web页面具有非结构化、复杂性等特点。

所以对Web挖掘来说，页面信息的抽取和特征表示等预处理应该是非常重要的。

2〕Web中的数据增长迅速，以每4到6个月的速度翻一番，而且其信息还不断发生更新。

因此对于Web数据的集成一直是一个很难处理的问题。

3〕由于网络用户要求各不相同，而存在Web效劳器、代理效劳器或客户端的用户信息比拟难以收集，所以在不同类型的户群中如何建立有效的动态模型来反映他们的实际需求是一件比拟困难的事情。

因此对于Web进行快速、有效的资源和知识发现具有很大的挑战性。

这些挑战已经推动了如何高效且有效地发现和利用Web上资源的研究工作。

Web数据挖掘是一项综合技术，是从www资源上抽取信息（或知识）的过程，是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。

他反复使用多种数据挖掘算法，从观测数据中确定模式或合理模型，也是将数据挖掘技术和理论应用于对www资源进行挖掘的一个新兴的研究领域。

Web数据挖掘从数据挖掘开展而来，都是在分析大量数据的根底上，做出归纳性的推理，预测客户的行为，帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。

Web数据挖掘可以在很多方面发挥作用，如对搜索引擎的结构进行挖掘，确定权威页面、Web文档分类、Weblog挖掘、智能查询、建立MetaWeb数据仓库等。

Web数据挖掘的根本原理的处理过程如图2－1所示。

目标数据集就是根据用户要求，从Web资源中提取的相关数据，Web数据挖掘主要从这些数据通信中进行数据提取；预处理是从目标数据集中除去明显错误的数据和冗余的数据，进一步精简所选数据的有效局部，并将数据转换成有效形式，以使数据挖掘算法（包括选取适宜的模型和参数）寻求感兴趣的型，并用一定的方法表达成某种易于理解的形式；模式分析是对发现的模式进行解释和评估，必要时需返回前面处理中的某些步骤以反复提取，最后将发现的知识以能理解的方式提供应用户。

图4-1Web数据挖掘原理图

5、Web挖掘具有以下特性：

1〕资料收集容易且不易引人注意，当用户进入网站后的一切浏览行为与过程都是可以立即被记录的。

2〕交互式个人化效劳为最终目标，除了因应不同用户呈现专门设计的网页之外，不同的用户也会有不同的效劳。

3〕广泛收集数据来源使分析功能发挥更大的作用，除了Logfile，Cookies，用户填表数据、在线调查数据、在线交易数据等在网络直接取得的资源外，结合现实世界中累积时间更久、范围更广的资源，将使分析的结果更准确也更深入。

利用数据挖掘技术建立更深入的客户数据剖析，并依赖架构精确的预测模式，呈现真正智能型个人化的网络效劳，是数据挖掘努力的方向。

Web数据挖掘的应用领域非常广阔，不但涉及页面信息提取、站点分析、设计，而且在即将广阔蓬勃开展的基于Internet的电子商务方面也有良好的应用。

5总结

我国互联网开展起步较晚，目前还没有多少人认识到网站访问日志信息重要性及有效利用它所能带来的效益。

随着互联网的迅猛开展，Web用户访问日志数据挖掘必将会在国内逐渐开展起来。

本文的研究工作是从以下几个方面展开的：

（1）综述了国内外Web数据挖掘的研究现状，系统研究了Web日志挖掘的挖掘过程，方法和研究难点。

（2）数据预处理中提出综合运用最大前向参引模型和时间窗口模型的思想，并设计了相应的算法，使得预处理后的访问事务更接近于用户访问网站的真实情况。

（3）比拟研究了经典关联规那么挖掘算法以及关联规那么在应用中的开展情况，设计了相似群体的页面聚类算法，以区分访问网站的不同客户群体；设计了频繁路径的挖掘算法，以挖掘浏览用户的访问模式。

（4）对设计的Web日志用户浏览模式挖掘算法进行实现，并结合Apriori算法对本文算法进行了评价。

由于作者水平和时间有限，本文仍存在以下缺乏之处：

（1）挖掘算法尚不具备普遍适用性，对于大型网站大量日志数据的挖掘，算法的优化问题有待进一步研究。

（2）数据预处理算法有待进一步优化和改良，时间窗口的设定可随会话中页面的增加适当增加，以期到达挖掘更长用户会话的目的；在支持－偏爱度的定义时引入时间参考度量，以期更加真实的反映用户的浏览兴趣等。

（3）研究对象有待拓展。

本文的研究对象是网站中的一段时间的历史静态日志，对于动态网站和动态日志，数据挖掘尚待进一步研究探讨。

参考文献:

[1]朱明.数据挖掘[M].合肥:

中国科学技术大学出版社,2002.

[2]欧阳为民,郑诚.KDD研究中的假设干问题和方法[J].安徽大学学报（自然科学版）,1999.

[3]施伯乐,朱扬勇.数据库与智能数据分析技术、实践与应用[M].上海:

复旦大学出版社,2003.

[4]陈燕.数据仓库与数据挖掘[M].大连:

大连海事大学出版社,2006.

[5]苏新宁,杨建林,江念南,等.数据仓库和数据挖掘[M].北京:

清华大学出版社,2006.

[6]毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:

清华大学出版社,2005.

[7]魏丽.数据挖掘中聚类算法比拟研究[J].电脑知识与技术.2007,（11）:

637-639.

[8]李玉玲.应用型人才工程实践及创新能力培养的研究与探索[J].中

展开阅读全文