数据分析与挖掘实验报告.docx-资源下载

数据分析与挖掘实验报告.docx

1、数据分析与挖掘实验报告数据分析与挖掘实验报告数据挖掘实验报告据模式）模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式）知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）。1.1.2数据挖掘的方法与技术数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许多应用领域的大量技术。数据挖掘主要包括以下方法。神经网络方法：神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注。典型的神经网络模型主要分

2、3大类：以感知机、bp反向传播模型、函数型网络为代表的，用于分类、预测和模式识别的前馈式神经网络模型；以hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以art模型、koholon模型为代表的，用于聚类的自组织映射方法。神经网络方法的缺点是黑箱性，人们难以理解网络的学习和决策过程。遗传算法：遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。sunil已成功地开发了一个基于遗传算法的数据挖掘工具，利用该工具对两个飞机失事的真实数据库进行了数据

3、挖掘实验，结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗糙集等技术的结合上。如利用遗传算法优化神经网络结构，在不增加错误率的前提下，删除多余的连接和隐层单元；用遗传算法和bp算法结合训练神经网络，然后从网络提取规则等。但遗传算法的算法较复杂，收敛于局部极小的较早收敛问题尚未解决。决策树方法：决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。粗糙集方法：粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集方法有几个优点：不需要给出额外信息；简化输入信

4、息的表达空间；算法简单，易于操作。粗糙集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统，为粗糙集的数据挖掘奠定了坚实的基础。但粗糙集的数学基础是集合论，难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗糙集理论实用化的难点。覆盖正例排斥反例方法：它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思想循环所有正例种子，将得到正例的规则(选择子的合取式)。比较典型的算法有michalski的aq11方法、洪家荣

5、改进的aq15方法以及他的ae5方法。统计分析方法：在数据库字段项之间存在两种关系：函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示，但仍是相关确定性关系)，对它们的分析可采用统计学方法，即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。模糊集方法：即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高，模糊性越强，

6、一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上，提出了定性定量不确定性转换模型-云模型，并形成了云理论。还有接下来重点介绍的关联规则方法。1.2关联规则1.2.1关联规则的概念关联规则的一个典型例子是购物篮分析。它是由著名的全国五百强沃尔玛发现的，沃尔玛有着世界最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是：跟尿布

7、一起购买最多的商品竟是啤酒！经过大量实际调查和分析，揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。关联规则由此进入人们的视野。关联规则挖掘被定义为假设I是项的集合。给定一个交易数据库D，其中每个事务(Transaction)t是I的非空子集，即每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时

8、包含X、Y的百分比，即概率；置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率。下面举个例子来更好地说明关联规则。给定AllElectronics关系数据库，一个数据挖掘系统可能发现如下形式的关联规则Age（X,“20.29”）income（X,“20,000.29,000”）？=buys(X,“CD-Player”)Support=20%,Confident=60%其中X是变量，代表顾客，该关联规则表示所研究的AllElectronics数据库中，顾客有20%在20-29岁，年收入在20,000-29,000之间，并且购买CD机；这个年龄和收入组的顾客购买CD机的

9、可能性有60%。1.2.2关联规则的实现Apriori算法1.2.2.1算法描述Apriori算法在发现关联规则领域具有很大影响力。算法命名源于算法使用了频繁项集性质的先验（prior）知识。在具体实验时，Apriori算法将发现关联规则的过程分为两个步骤：第一步通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；第二步利用频繁项集构造出满足用户最小信任度的规则。其中，挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。Apriori算法使用一种称作逐层搜索的迭代方法，K项集用于搜索（K+1）项集。首先，通过扫描数据库，累积每个项的计数，并收集满足最小支持

10、度的项，找出频繁1项集的集合。该集合记作L1。然后，L1用于寻找频繁2项集的集合L2，L2用于寻找L3，如此下去，直到不能再找到频繁K项集。为提高频繁项集逐层产生的效率，一种称作Apriori的重要性质用于压缩搜索空间。Apriori性质：频繁项集的所有非空子集也必须是频繁的。如何在算法中使用Apriori性质？主要有两步过程组成：连接步和剪枝步。(1) 连接步：为找LK，通过将L(k-1)与自身连接产生候选K项集的集合。该候选项集合记作CK。设l1和l2是Lk-1中的项集。记号lij表示li中的第j项。执行L(k-1)连接L(k-1)，如果它们的前（K-2）项相同的话，其中L(k-1)的元素

11、是可连接的。(2) 剪枝步：为压缩CK，可以用Apriori的性质：任何非频繁的（K-1）项集都不是频繁K项集的子集。因此，如果候选K项集的（K-1）项子集不在L(k-1)中，则该候选也不可能是频繁的，从而可以从CK中删除。1.2.2.1算法举例Apriori 算法的伪代码Input: DB, min_supOutput: result = 所有频繁项集的他们的支持度方法：Result: = ;K: =1;C1: = 所有的1-项集While(Ck)dobegin为每一个Ck中的项集生成一个计数器;For（i=1; i=sup); %查找候选项集C1中支持度2的项集,生成频繁项集L1temp

12、= 1 2 3 4 5col=col(temp);count_col_sup=count_sup(temp);L1=col count_col_sup;L1 = 1 6 2 7 3 6 4 2 5 2%产生2项集i=0;j=0;co2=nchoosek(col,2); %产生候选项集C2co2 = 1 2 1 3 1 4 1 5 2 3 2 4 2 5 3 4 3 5 4 5m2,n2=size(co2); count_co2_sup=zeros(m2,1);for i=1:m2 for j=1:m1 if (shw(j,co2(i,1)=1) & (shw(j,co2(i,2)=1) cou

13、nt_co2_sup(i)=count_co2_sup(i)+1; end j=j+1; endendtemp=find(count_co2_sup=sup); %查找候选项集C2支持度2的项集,生成频繁项L2co2=co2(temp,:);count_co2_sup=count_co2_sup(temp,:);L2=co2 count_co2_sup;L2 = 1 2 4 1 3 4 1 5 2 2 3 4 2 4 2 2 5 2%寻找3项集A=co2(:,1) co2(:,2);A = 1 2 1 3 1 5 2 3 2 4 2 5mA,nA=size(A);B(1)=A(1);k=2;f

14、or i=1:mA for j=1:nA if(A(i,j)=B(1:end) %查找重复出现的商品号 B(k)=A(i,j); k=k+1; %B=1 2 3 5 4 end j=j+1; end i=i+1;endco3=nchoosek(B,3); %产生候选项集C3co3 = 1 2 3 1 2 5 1 2 4 1 3 5 1 3 4 1 5 4 2 3 5 2 3 4 2 5 4 3 5 4m3,n3=size(co3);count_co3_sup=zeros(m3,1);for i=1:m3 for j=1:m1 if(shw(j,co3(i,1)=1) & (shw(j,co3(

15、i,2)=1) & (shw(j,co3(i,3)=1) count_co3_sup(i)=count_co3_sup(i)+1; end j=j+1; endm3=m3+1;endtemp=find(count_co3_sup)=sup); %查找候选项集C3支持度2的项集,生成频繁项L3co3=co3(temp,:);count_co3_sup=count_co3_sup(temp,:);L3=co3 count_co3_sup;L3 = 1 2 3 2 1 2 5 2%寻找4项集C=co3(:,1) co3(:,2) co3(:,3);mC,nC=size(C);D(1)=C(1);K=

16、2;for i=2:nC if(C(i)=D(1:end) %查找重复出现的商品号 D(K)=C(i); K=K+1; end i=i+1;endco4=nchoosek(D,4);m4,n4=size(co4);count_co4_sup=zeros(m4,1);for i=1:m4 for j=1:m1 if(shw(j,co4(i,1)=1) & (shw(j,co4(i,2)=1) & (shw(j,co4(i,3)=1) & (shw(j,co4(i,4)=1) count_co4_sup(i)=count_co4_sup(i)+1; end j=j+1; endendtemp=fi

17、nd(count_co4_sup)=sup);co4=co4(temp,:);count_co4_sup=count_co4_sup(temp,:);L4=co4 count_co4_sup;C4 = Empty matrix: 0-by-5上述基于Matlab的Apriori算法的结果与上节的图6.2一致，由于C4是空集，所以算法终止，共找到频繁项集L1，L2，L3。3.用java实现关联规则3.1java界面描述运行程序Apriori，进入关联规则主界面，如图3.1所示图3.1 关联规则主界面点击“载入”选择“g:/1.txt”，选择“打开”，载入到java界面中，如图3.2所示图3.2

18、载入界面载入完成后的界面，如图3.3所示图3.3 载入完成界面输入最小支持度阈值，如2，点击“生成频繁项集”，生成所有频繁项集，如下图3.4所示图3.4 频繁项集输入最小可信度的值，如0.6，点击生成关联规则，结果如下图3.5所示图3.5 关联规则3.2java关键代码描述1、删除小于支持度的键2、创建并返回L1的结果集3、创建并返回L2的结果集4、创建并返回L3的结果集5、在健集keyset里查找健值为a,b,c的健6、判断在健集keyset里是否已经包含了健值为a,b,c的健7、创建关联规则，返回关联规则表8、求a与L的差集，并返回差集9、获取setN的子集。假设setN=a,b,c，则生

19、成的子集为XXX4、实验总结4.1实验的不足和改进在上述基于Matlab和Java的Apriori算法的编写中均存在以下不足：(1) 在生成候选项集的时候会产生许多最后证明不是频繁项集的候选项集,如果能在生成候选频繁项集之前能判断出某些候选集不是频繁项集,则这样可以避免在扫描数据库时的开销；(2) 连接程序中相同的项目重复比较的太多,如果能避免这些重复的比较,则可以提高算法的效率；(3) 有些事务项在一次扫描之后可以判断出下次不必再扫描,但结果又被多次扫描。如果能避免这些稍描,则可以提高算法效率。可以改进的方面有：(1)基于散列(hash)的技术这种散列的技术可用于压缩候选k-项集Ck。在由

20、C1中的候选1-项集产生频繁1-项集L1时,可使用散列函数将每个事务的所有项集散列到不同的桶中,并对对应的桶进行计数,通过桶的计数寻找候选频繁项集。这种技术可以大大压缩待考察的K-项集,尤其有利于改进频繁2-项集的生成效率,这就是DHP算法。(2) 基于划分的方法使用划分技术,可以只需要对数据库进行两遍扫描,就可以发现全部频繁集,从而大大降低对数据库的扫描遍数。(3) 选样该方法的基本思想是,选取给定数据库D的随机样本S,然后在S中而非是D中搜索频繁项集。这种方法是以精度的牺牲换取搜索速度和效率。为避免丢失全局频繁项集,可以使用比全局支持度阀值低的样本支持度阀值来对样本寻找频繁项集。4.2

21、实验心得数据挖掘是一门比较新兴的课程，随着现在信息化的快速发展发挥着越来越重要的作用。通过学习数据挖掘这门课程，使我对于数据挖掘有了更深一步的理解。数据挖掘吸纳了许多其他学科的精华知识，且具有自己独特的体系，非常具有深度，想要深入研究数据挖掘有一定难度。这次实验通过数据挖掘的一个重要方法关联规则作为切入点来学习数据挖掘，从一个较浅的层面来理解数据挖掘。关联规则是指在交易数据库中，挖掘出不同项集的关联关系，在实际交易中很很广泛的应用。学习关联规则过程中，首先，老师讲解关联规则的基础知识，以及基于Matlab的关联规则代码，使本人对于关联规则产生兴趣，并开始研究；然后，本人在课后通过查找资料以及阅读书籍编写基于Java的关联规则代码。通过这一过程本人牢固掌握了关联规则，但是也存在不足之处，比如编写的代码普遍只适用于较少的数据量，对于大量的数据无能为力，这需要在今后的学习中不断去优化。另外，关联规则只是数据挖掘中的几个基本方法，还有如粗糙集，遗传算法，神经网络等非常实用的方法，由于课时有限，没有机会学习。这次的实验提供了一个契机，对于本人今后的学习有很大帮助。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？