决策粗糙集模型属性约简的聚类分析研究.docx

资源描述

决策粗糙集模型属性约简的聚类分析研究.docx

《决策粗糙集模型属性约简的聚类分析研究.docx》由会员分享，可在线阅读，更多相关《决策粗糙集模型属性约简的聚类分析研究.docx（40页珍藏版）》请在冰豆网上搜索。

决策粗糙集模型属性约简的聚类分析研究.docx

决策粗糙集模型属性约简的聚类分析研究

学校代码：

10264

研究生学号：

M110501582

上海海洋大学

硕士学位论文

题目：

收益风险优化属性约简的聚类分析研究

英文题目：

ClusteringAnalysisofReductiononBalanceProfitandRisk

专业：

计算机应用技术

研究方向：

决策粗糙集、属性约简、聚类分析

姓名：

徐节龙

指导教师：

王德兴

二O一四年三月五日

上海海洋大学学位论文原创性声明

本人郑重声明：

我恪守学术道德，崇尚严谨学风。

所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。

除文中已经明确注明和引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。

论文为本人亲自撰写，我对所写的内容负责，并完全意识到本声明的法律结果由本人承担。

学位论文作者签名：

日期：

年月日

上海海洋大学学位论文版权使用授权书

学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅或借阅。

本人授权上海海洋大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密　□，在年解密后适用本版权书。

本学位论文属于

不保密■

学位论文作者签名：

指导教师签名：

日期：

年月日日期：

年月

上海海洋大学硕士学位论文

答辩委员会成员名单

姓名

工作单位

职称

备注

答辩地点

答辩日期

收益风险优化属性约简的聚类分析研究

摘要

粗糙集理论是由Pawlak教授提出的一种处理不精确、不确定和不协调数据的数学工具，与概率论、模糊集和证据理论等其他不精确、不确定理论相结合，广泛应用到知识获取、决策分析、智能控制、模式识别、机器学习和数据挖掘等领域。

知识约简理论是粗糙集的重要组成部分。

通常情况下，知识约简可以理解为是在保证不影响信息系统分类能力的情况下，通过删除其中一些冗余的属性和属性值，即用尽可能少的属性表示原有的知识。

如何获得快速有效地属性约简算法成为知识约简的一个重要研究内容，同时也是粗糙集理论能够进一步发展的基石。

聚类分析方法在评估数据内部有效性中具有非常重要的作用。

很多聚类分析方法都需要事先给出聚类所需的一些参数，譬如聚类的数目、聚类的中心点和需要迭代的次数等。

若事先无法获取这些相关的知识和经验，这些聚类分析算法往往是不可行的。

因此，研究一种不需要先验知识、人为因素干扰较小、聚类结果较为准备的聚类算法具有现实的研究意义。

本文首先从粗糙集的基本理论着手，研究了知识约简的启发式约简算法，之后给出风险最小化的贝叶斯决策和三枝决策粗糙集的基本理论，并延伸到对三枝决策粗糙集正域约简算法的研究。

其次，提出风险收益优化的属性约简概念和相应的算法。

再次，提出了提出面向信息系统的聚类分析算法。

之后，在风险收益方法的基础上研究了针对聚类分析的算法。

本文主要研究属性约简和聚类分析算法，具体有以下几方面的内容：

1）针对经典粗糙集理论和相关知识约简领域方面的研究，本文首先引入了粗糙集和知识约简的相关概念和定义，然后又列举了基于属性重要度的属性约简算法，该算法可以很好地应用于噪音较低的信息系统中。

2）针对传统的属性约简的不足，即在实际应用中由于噪声的存在，通常很难做到误分类率为零的精确分类，将正域定义为完全包含于目标概念的等级类过于严格，缺乏对误分类的容忍能力。

本文引入了风险最小化的贝叶斯决策和决策粗糙集模型，并在此基础上提出了基于决策粗糙集的正域约简并给出正域约简算法。

3）在工农业生产、经济活动和社会生活中，决策者总是希望实现收益最大而承担的风险最小，但是这是最理想的期望，一般不可能实现的。

如何平衡或兼顾两者，寻找切实可行的约简是决策过程中的一个重要问题，通过属性约简可以在海量的、复杂数据中挖掘其中隐藏的属性间关联，从而简化数据模型并提高其系统模型的仿真精度。

本文在一定的预期收益水平下通过组合优化收益和风险建立了收益和风险平衡组合的决策模型，并给出了该模型属性约简的启发式搜索算法。

该算法以每个属性的收益风险平衡组合函数作为指标进行启发式属性约简，理论分析和实例表明基于收益和风险优化的约简算法缩少数据模型的规模和复杂度，便于进行模型系统的计算机仿真，具有较强的实用性和经济价值。

4）针对传统的聚类分析方法需要给出先验知识的局限性，本文提出了一种基于收益风险优化属性约简的聚类分析方法，首先利用面向粗糙集信息系统的聚类算法框架得到一个小粒度的聚类结果;然后提出基于收益风险优化的聚类算法，该算法使用收益风险优化的函数来指导合并过程，采用凝聚的形式得到一个合适的聚类结果，并对聚类过程进行评估，直到满足聚类算法的终止条件；最后，实例分析和实验表明该聚类算法是有效的。

总之，本文针对粗糙集的属性约简、决策粗糙集的正域约简、收益风险优化的约简并应用于聚类分析中这几个研究领域，提出了一些相关的属性约简和聚类方法，进一步丰富了属性约简理论和聚类分析理论。

关键字：

粗糙集，属性约简，决策，风险，收益，聚类分析

ClusteringAnalysisofReductiononBalanceProfitandRisk

ABSTRACT

Theroughsettheory,whichproposedbyProfessorPawlak,isamathematicalapproachtohandleimprecision,fuzzyanduncertaintyknowledgeandproducedecisionorclassificationrulesthroughtheknowledgereductioninpremiseofkeepingthesameoftheclassificationability.Ithasbeenwidelyappliedtoknowledgeacquisition,decisionanalysis,intelligentcontrol,patternrecognition,machinelearninganddatamining,etc.Intheroughsetmodel,attributereductionplaysanimportantrole.Generalspeaking,theattributereductioncanbeinterpretedasaprocesstofindingaminimalattributesetthroughremovesomeunrelatedorunimportantattributesthatcanpreserveorimproveoneorseveralcriteria.Itisanimportantresearchcontentofknowledgereductiontofindafastandefficientreductionalgorithm,whichalsogreatlyenrichesanddevelopsroughsettheory.

Clusterisanimportantresearchdirectionandisoneofthemostimportantmethodstoassessinternaldata’seffectiveness.Manyclusteringanalysismethodsshouldneedsomerelatedparametersinadvance,suchasclusternumber,initialcenterandthenumberofiterations.Iflackofthoseknowledgeandexperience,thoseclustermethodsusuallyinfeasible.Therefore,itmakesasignificantsensetosearchaclusteralgorithmwhichneedsrarelypriorknowledge,lowerinterruptandmoreaccurateresult.

Atfirst,thispaperintroducesroughsettheory,givesaheuristicreductionalgorithm,proposesBayesdecisionanddecision-theoreticroughset,andresearchesapositiveregionreductionalgorithm.Secondly,amethodonbalanceprofitandriskisgiven.Next,therelatedclusteringalgorithmisgiven.Atlast,thispaperproposesaclustermethodofattributereductiononbalanceprofitandrisk.Thispaperismainlyconsistingofseveralpartsofcontents:

1）Aimedatroughsetandknowledgereduction,thispaperciteanattributereductionalgorithmbasedonattributeimportant,whichcouldbeusedinlowernoiseinformationsystem.

2）However,inmanypracticalproblems,thedomainbinaryrelationisnotequivalentsotheapplicationofroughsetmodelislimited.ThispaperprovidesaminimumcostBayesDecisionandattributereductionindecision-theoreticroughsetmodel.Positiveregionpreservationattributesreductionandrelatesalgorithmcanbedefinedinthispaper.

3）Usuallyitistakengrantthatweachievethemaximalprofitandtheminimalriskinindustry,agriculture,economicactivitiesandsociallife,buttheexpectationisidealandcan’tbeeasilyachieved.Itisanimportantproblemthathowtobalanceprofitandriskandfindoutpracticalattributereductionindecision-makingprocess.Bythealgorithmsofattributereduction,wecanfindtheassociationrelationshipsofhiddenattributeswhichsimplifythedatamodelandimprovesystemmodel’ssimulationaccuracy.Thispaperbuildsadecision-theoreticmodelwhichcanbalanceprofitandriskcombinewithdecision-theoreticroughsetmodelandminimumriskofBayesDecision,namely,whichfindsanoptimalcombinationofriskincertainlevelofexpectedprofit,andthenprovidesaheuristicsearchalgorithmofattributereduction.Thealgorithmtakesthefunctionofbalancingprofitandriskasthetargetofheuristicattributereduction.Analysisofthetheoryandexperimentsshowsthatthisalgorithmcanreducethescalesandcomplexityofdatamodel,makeitconvenientthatcomputersimulationofthemodelsystem.Therefore,ithasstrongpracticalandeconomicvalue.

4）Directedagainsttheshortageoftraditionalclustermethod,thispaperproposesaclusteringmethodofattributereductiononthebalanceofprofitandrisk.Atfirst,wegetasmallgranularityclusteringresultsclusteringbyinformationtableanalysisalgorithmframework.Then,thispaperproposesaclusteringalgorithmofattributereductiononbalanceprofitandriskwhichcanadjustthresholdvaluetoconstructaclusteringevaluationfunctioninordertofindthesolutiontooptimizetheresult.Atlast,thecaseanalysisandexperimentshowthealgorithmisfeasible.

Inaword,thispaperproposessomeeffectivemethoddirectedagainstroughsetattributereduction,positiveregionpreservationreductionindecision-theoreticroughset,attributereductionandclusteringanalysisofattributereductiononbalanceprofit&risk,whichmoreabundantattributereductionandclusteringanalysis.

KEYWORDS:

roughSet,attributereduction,decision-theoretic,risk;profit;clustering

摘要I

ABSTRACTI

第1章引言1

1.1属性约简和聚类研究进展1

1.1.1属性约简的研究背景1

1.1.2属性约简相关研究进展2

1.1.3聚类分析相关研究进展3

1.2论文的研究内容和组织结构5

1.2.1研究内容5

1.2.2论文的组织结构6

第2章属性约简和聚类分析相关理论7

2.1粗糙集相关理论7

2.1.1信息系统7

2.1.2集合近似和粗糙集8

2.2经典粗糙集的属性约简9

2.2.1属性约简的相关定义9

2.2.2基于属性重要度的属性约简算法10

2.3本章小结11

第3章基于收益风险优化的属性约简12

3.1风险最小化的属性约简12

3.1.1风险最小化的贝叶斯决策12

3.1.2三枝决策粗糙集模型14

3.1.3三枝决策的正域约简16

3.2收益风险优化问题19

3.2.1风险收益优化的决策模型19

3.2.2收益风险优化的属性约简21

3.3实例分析23

3.4实验24

3.5本章小结26

第4章收益风险优化的聚类分析方法27

4.1基于收益风险优化的聚类算法27

4.1.1聚类模式的评估27

4.1.2聚类模式的评估28

4.1.3风险收益优化的聚类算法29

4.2实例分析31

4.3本章小结33

第5章总结和展望34

5.1总结34

5.2展望35

参考文献36

攻读学位期间发表论文41

致谢42

第1章引言

1.1属性约简和聚类研究进展

1.1.1相关的研究背景

当今社会是计算机科学技术的高速发展的信息时代，特别是伴随着计算机网络技术的发展，各领域获得的数据和信息在急剧增长，人们被大量数据淹没，这些海量的数据等待着人们去处理，然而由于受到现实中各种原因的制约，传统的数据管理体系无法满足用户对海量数据进行提取和挖掘，而且这些数据中的不确定性更加显著。

粗糙集理论是由Pawlak教授于1982年提出的一种不需要任何先验知识就可以进行属性约简和规则获取的数学工具[1]。

该理论因其无需提供问题所需要的先验信息且对问题的描述和处理较为客观，正逐步成为智能信息处理领域的研究热点之一。

目前，它已被广泛应用到知识获取、决策分析、智能控制、模式识别、机器学习和数据挖掘等领域[2-7]。

经典粗糙集模型的核心就是对上近似集合和下近似集集合的定义，通过等价类与目标概念类的两种代数关系来给出定义，并在此基础上进一步定义了正域、负域和边界域，整个论域通过等价关系来划分成若干个不相交的子集。

对于整个论域，正区域和负区域的每个对象可以导出确定性规则，而边界区域的每个对象导出所有可能性规则，这三个区域的界定实质上也确定了论域中所有对象的一种分类决策。

从机器学习的角度来看，经典粗糙集模型中的正域确定了误分类为零的精确分类器。

然而，在实际问题中，由于噪声的存在，得到误分类为零的精确分类器很难做到，因此将正域定义为完全包含于目标概念的等价类过于严格，缺乏对误分类的容忍度，因此有必要对其进行扩展。

决策粗糙集模型是较早提出的一类概率粗糙集模型，该模型在概念上、下近似集中引入概率包含关系，即当等价类的大部分都被目标概念所包含时则将其划分到正域，若等价类的大部分都不被目标概念所包含时则将其划分到负域，而介于这两者之间的则划分到边界域[8]。

对于决策粗糙集模型和其他的粗糙集模型譬如经典粗糙集模型、各种概率粗糙集模型等之间的关系，Yao已经进行了系统的讨论，认为经典粗糙集模型、各种概率粗糙集模型等都可以看做是决策粗糙集模型再改变阈值参数之后的一种特例[9]。

对于经典粗糙集模型及其扩展模型的应用研究方面，很多国内外相关学者已经探讨了这些理论在文本分类方法、聚类问题、属性选择问题、网络支持系统、信息过滤、多用户决策、、风险偏好决策、不完备信息系统和E-learning等方面的应用[10-12]。

如何求解属性约简问题已经成为知识约简理论的一个重要方面来进行研究。

在粗糙集和决策粗糙集中，很多属性是完全没必要的，剔除这些属性不会损失决策的精度。

更重要的是，属性的多少直接影响着决策规则的繁简。

因此，人们期望能够得到属性数目最少的约简结果，即最优约简。

遗憾的是，Wong.S.K.M和Ziarko.W已经证明了最优约简是NP-hard问题[13]，因此寻找一种相对较优的约简即启发式属性约简成为人们的追求目标。

在工农业生产、经济活动和社会生活中，根据用户将决策问题环境信息的把握程度，一般将决策问题划分为两种类型：

确定型、不确定型，而且针对每一类型的决策问题，都有一套较成熟的理论和算法，从而形成整个决策体系。

风险型决策问题是不确定性决策论的核心组成部分，期望收益最大和风险最小准则是用户追求的目标。

但是这种理想状况由于实际问题存在噪音的干扰无法实现，因此如何兼顾两者，寻找切实可行的决策思想，研究一种能得到收益和风险相对较优的模型，是决策分析的一个重要问题，通过属性约简可以在海量的、复杂数据中挖掘其中隐藏的属性间关联，从而简化数据模型并提高其系统模型的仿真精度。

同时缩少数据模型的规模和复杂度，便于进行模型系统的计算机仿真。

1.1.2属性约简相关研究进展

在粗糙集理论和决策粗糙集理论的研究中，属性约简是一个重要的研究内容，关于属性约简的算法通常可以分为以下几类：

（1）盲目删除属性约简算法

该算法依次对信息系统或决策表系统中的所有属性进行遍历，针对每一个属性，观察删除该属性前后对分析能力是否发生改变，如果没有则保留该属性，否则删除该属性。

通过该类算法，可以删除一些冗余的属性，减小信息系统或决策表系统的规模，最终能找到一个约简结果，但是无法保证该约简结果是最优约简即无法保证能得到一种令人满意的结果。

（2）基于信息观的属性约简算法

苗夺谦等人提出了一种基于属性信息概念约简算法，从决策的角度重新定义了互信息的属性重要度，其算法的复杂度相对盲目法有了很大程度的提高，而且能够在很多情况下可以得到约简结果[14]。

然而，该算法并不能保证算法的完备性，也并不总是得到满意的结果[15]。

为了克服条件信息熵约简在对噪声敏感和约简结果冗余度高等不足，文献[15]提出了条件熵的决策表约简，文献[16]提出了条件信息熵的近似约简算法，文献[17]提出了变精度粗糙集的属性核和最小属性约简算法，这些算法可以有有效地增加抗噪性并减少属性的冗余度。

（3）基于属性重要度的属性约简算法

Skowron提出可分辨矩阵的概念[18]，Hu等人在此基础上提出基于属性重要度的启发式约简算法，该算法首先根据可分辨矩阵得到核属性，一次计算正区域的属性重要度，选择具有最大属性重要度的属性加入约简集合中，直到约简集成为协调级为止[19]。

然而，该算法的时间复杂度高，且未考虑现实中广泛存在的不协调的情况，文献[20]利用单属性的近似精度和改进的可分辨矩阵来提高计算速度，文献[21]将协调对象和不协调对象进行区分后在建立可分辨矩阵并利用最小析取范式进行简化来获得约简结果。

（4）基于增量式的属性约简算法

在现实世界的属性约简中，信息系统的对象往往是动态变化的

展开阅读全文