基于粗糙集理论的网络评教研究本科学位论文.docx

资源描述

基于粗糙集理论的网络评教研究本科学位论文.docx

《基于粗糙集理论的网络评教研究本科学位论文.docx》由会员分享，可在线阅读，更多相关《基于粗糙集理论的网络评教研究本科学位论文.docx（31页珍藏版）》请在冰豆网上搜索。

基于粗糙集理论的网络评教研究本科学位论文.docx

基于粗糙集理论的网络评教研究本科学位论文

摘要

数据的约简包括属性约简和属性值约简[1]，现在数据约简的方法很多，粗糙集理论是数据约简和数据挖掘的重要工具，数据约简和数据挖掘相互联系，它们没有必然的划分界限，通过粗糙集工具和决策树工具以及用粗糙集理论建立决策树的理论可以将数据约简的理论方法加以开发推广，本文通过对数据约简理论的发散研究，结合现在比较前沿的观点和实例阐明数学工具和方法理论之间的联系。

首先介绍数据约简工具RoughSets理论应用范围和前景，粗糙集理论历史，特点以及与粗糙集理论相关的基本概念和基本的约简算法（包括A.Skowron提出的分辨矩阵约简算法和基于可辨识矩阵的启发式约简算法），粗糙集在数据挖掘中的应用，包括数据挖掘的基本概念，数据挖掘的基本任务（重点介绍了现在流行的基于决策树的数据分类算法），并且给出了粗糙集在数据挖掘中的应用举例。

用粗糙集理论可以建立决策树，包括决策树的核心技术，粗糙集理论构造决策树的方法和决策树的应用介绍，现又新提出的双论域下粗糙集数据约简方法。

然后分析国内外网络的教学评估系统的研究成果，并且结合课堂教学质量评价表，将数据约简理论成功运用于网络评教中。

关键字：

数据约简，RoughSets理论，数据挖掘，网络的教学评价，离算化。

Abstract

Reductionofdata,includingattributereductionandattributevaluereduction[1],datareductionisnowalotofmethods,roughsettheoryisthedatareductionandanimportanttoolfordatamining,datareductionanddatamininginterrelated,theyarenotthedelineationofboundariesisboundthroughtheroughsettoolsanddecisiontreetools,aswellastheestablishmentofroughsettheorywiththetheoryofdecisiontreecouldbethetheoryofdatareductionmethodstopromotethedevelopmentofthispaperthedatareductionofthedivergencetheory,incombinationwithcutting-edgeNowviewsandexamplesofmathematicaltoolsandmethodstoclarifythelinkbetweentheory.FirstdatareductiontoolintroducedRoughSetsTheoryandprospectsofapplications,roughsettheoryofhistory,characteristicsoftheroughsettheoryandbasicconceptsandbasicreductionalgorithm（includingA.SkowronproposedreductionalgorithmtodistinguishMatricesandHeuristicattributereductionbasedondiscernibulitymatrixanditsapplication）,roughSetintheapplicationofdatamining,includingthebasicconceptsofdatamining,dataminingofthebasictasks（focusingonthenowpopulardata-baseddecisiontreeclassificationalgorithm）,androughsetsaregivenintheapplicationofdatamining,forexample.Roughsettheorywiththetheoryofdecisiontree,includingthecoretechnologydecisiontree,decisiontreestructureofroughsettheorymethodsandtheapplicationofdecisiontreethatisalsothenewdual-domainofroughsettheorydatareductionmethods.Analysisofthenetworkathomeandabroadandthenteachingevaluationsystemofresearchresults,andcombinedwiththequalityofclassroomteachingevaluationform,datareductionwillbesuccessfullyappliedtothetheoryofteachingevaluation.

Keywords:

Thedatareduction,RoughSetstheory,thedatamining,thenetworkteachingappraisal,tocalculates.

摘要II

AbstractIII

目录引言1

引言2

第一章．粗糙集的基本理论3

1.1粗糙集历史3

1.2粗糙集特点4

1.3粗糙集理论的基本概念4

第二章．基于粗糙集在数据挖掘算法研究12

2.1数据挖掘的概念12

2.2数据挖掘的基本任务12

2.3应用实例13

第三章.基于粗糙集建立决策树的算法16

第四章．双论域下粗糙集数据约简方法17

4.1变精度粗糙集模型：

4.2双论域下的粗糙集模型17

第五章．关于网络的教学评价18

5.1教学评价的定义和网络教学评价的理论指导思想及定义18

5.2国外网络教学评价研究成果19

5.3国内网络教学评价研究分析21

5.4网络教育教学评价过程中应该注意的问题23

第六章．数据约简理论在网络评教中的应用24

6.1.数据的预处理24

6.2对决策表进行属性约简27

6.3决策规则的生成27

第七章总结与展望29

参考文献30

致谢32

引言

RoughSets理论是1982年由波兰数学家Z.Pawlak提出的对不确定知识进行表示的理论。

近年来,粗糙集作为一种新生的处理不确定性知识的数学工具，由于其独特的计算优势，及其在数据挖掘、机器学习、数据库知识发现、决策分析、专家系统和决策支持系统等方面的成功应用，粗糙集数据分析（RSDA）逐渐被公认为人工智能领域最具潜力的五大新兴技术（粗糙集理论、神经网络、演化计算、模糊系统及混沌系统）之一。

同时，该理论还在农学、医学、化学[2]、材料学、地理学、管理科学和金融等其他学科得到成功应用。

现在决策表又在决策表属性简化、决策规则的简化是粗糙集理论与实际应用的主要研究方向之一。

约简是粗集理论的重要内容，通过删除知识库中多余的属性集（值），来保留知识库中的重要知识，以提高知识的质量，方便用户决策.近年来，许多学者通过不同的方法从不同的角度对决策规则获取（值约简）做了深入的研究。

约简包括属性约简和属性值约简，在进行属性值约简之前我们必须先进行属性约简。

目前，静态的属性约简算法主要有两类,一类是基于信息熵的算法。

另一类是基于可辨识矩阵和可辨识函数构造的属性约简算法，下面据此理论进行发散研究，并将其成功运用于学校师生教学评价管理之中，提升教学管理水平。

第一章．粗糙集的基本理论

1.1粗糙集历史

现实生活中有许多含糊现象并不能简单地用真、假值来表示，如何表示和处理这些现象就成为一个研究领域。

早在1904年谓词逻辑的创始人G.Frege就提出了含糊（Vague）一词，他把它归结到边界线上，也就是说在全域上存在一些个体既不能在其某个子集上分类，也不能在该子集的补集上分类。

1965年，Zadeh提出了模糊集，不少理论计算机科学家和逻辑学家试图通过这一理论解决G.Frege的含糊概念，模糊集在实际中仍有比较广泛的应用，模糊集理论采用隶属度函数来处理模糊性，以先验知识为基础，正因为建立在可靠的已知知识基础上，对不确定问题的处理往往会得到很好的结果。

（比如基于模糊技术的题库管理系统，基于模糊推理的高校专业课程体系评价专家系统，基于模糊信息处理的高校选课系统构建[3]）。

20世纪80年代初，波兰的Pawlak针对G.Frege的边界线区域思想提出了粗糙集（RoughSets），他把那些无法确认的个体都归属于边界线区域，而这种边界线区域被定义为上近似集和下近似集之差集。

由于它有确定的数学公式描述，完全由数据决定，所以更有客观性。

自提出以来，许多计算机科学家和数学家对粗糙集理论及其应用进行了坚持不懈的研究，使之在理论上日趋完善，特别是由于20世纪80年代末和90年代初在知识发现等领域得到了成功的应用而越来越受到国际上的广泛关注。

1991年波兰数学家Pawlak教授的第一本关于粗糙集的专著《RoughSets:

TheoreticalAspectsofReasoningaboutData》和1992年R.Slowinski主编的关于粗糙集应用及其与相关方法比较研究的论文集的出版，推动了国际上对粗糙集理论与应用的深入研究。

1992年在波兰Kiekrz召开了第1届国际粗糙集讨论会。

从此每年召开一次与粗糙集理论为主题的国际研讨会。

2001年5月在重庆召开了“第1届中国Rough集与软计算学术研讨会”，邀请了创始人Z.Pawlak教授做大会报告；

2002年10月在苏州第2届中国粗糙集与软计算学术研讨会；

2003年5月在重庆第3届中国粗糙集与软计算学术研讨会；

2004年10月中下旬在浙江舟山召开第4届中国粗糙集与软计算学术研讨会；

2005年8月1日至5日在鞍山科技大学召开第五届中国Rough集与软计算学术研讨会（CRSSC2005）；

2006第六届中国粗糙集与软计算学术研讨会在,浙江师范大学；

2007年粗糙集与软计算、Web智能、粒计算联合学术会议,山西大学；

2008年第8届中国粗糙集与软计算学术会议、第2届中国Web智能学术研讨会、第2届中国粒计算学术研讨会联合学术会议（CRSSC-CWI-CGrC2008）,河南师范大学[4].

1.2粗糙集特点

粗糙集是一种软计算方法。

软计算的概念是由模糊集创始人Zadeh提出的.软计算中的主要工具包括粗糙集（RS）,模糊逻辑（FuzzyLogic）,神经网络（NN）,概率推理（ProbabilityReasoning）,信度网络（BeliefNetworks）,遗传算法（GA）与其它进化优化算法,混沌（Chaos）理论等.传统的计算方法即所谓的硬计算（hardcomputing）,使用精确,固定和不变的算法来表达和解决问题.而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易于处理,鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调。

1.3粗糙集理论的基本概念

人的的分类能力是对人类以及其他物种，事物的认识能力，是一种知识。

从认知科学的观点来理解知识，知识是基于对对象的分类能力，知识直接与真实或抽象世界有关的分类模式联系在一起，称为论域U。

设定有一个论域U,对于任何子集X

U可成为一个U中的概念或范畴，U的任何概念族称为U的抽象知识，简称知识。

关于U的一个划分

定义为：

}

其中Xi

U,Xi

Xj=

j,i,j=1,2,…n,

=U.U上的一族划分称为关于U的一个知识库（knowledgebase）。

设R是U上的一个等价关系，U/R表示R的所有等价类，或U上的划分构成的集合，[X]R表示包含元素X

U的R等价类。

一个知识库就是一个关系系统K=（U,R）,其中U为非空有限集，是论域，R是U上的一族等价关系。

若P

R且P

P（P中所有等价关系的交集）也是一个等价关系，称为P上不可区分关系（indiscernibility）,记为IND（P）,IND（P）=

P,且有

[X]IND（P）=

[X]H

.U/IND（P）表示等价关系族（P）的相关知识，称为K中关于U的P基本知识（P为基本集）[5]。

1.3.1信息系统的定义

有序对S=（U,A）,其中U为非空有限集合，称为全域。

A=C

D,C

C表示条件属性集，D表示决策属性集。

全域U的元素被称为对象或者实例。

下面用表1所示的经典天气决策信息系统为例[6]，表1中,a1,a2,a3,a4是条件属性,分别代表天气、温度、湿度、风。

d是决策属性,论域U={x1,x2,…,x14[7]}。

1.3.2不可区分关系

R的非空子集P上的不可区分关系为ind（P）.称U/ind（P）为K=（U,R）关于论域U的P基本知识。

称[x]ind（P）为P的基本概念。

Ind（k）=[ind（P）|

R}。

例如:

空间物体集合U具有“颜色”、“形状”这两种属，“颜色”的属性值取为红、黄、绿，“形状”的属性值取为方、圆、三角形。

从离散数学的观点看，“颜色”、“形状”构成了U上的一族等效关系。

U中的物体，按照“颜色”这一等效关系，可以划分为“红色的物体”、“黄色的物体”、“绿色的物体”等集合；按照“形状”这一等效关系，可以划分为“方的物体”、“圆的物体”、“三角形的物体”等集合；按照“颜色+形状”这一合成等效关系，又可以划分为“红色的圆物体”、“黄色的方物体”、“绿色的三角形物体”等集合。

如果两个物体同属于“红色的圆物体”这一集合，它们之间是不可分辨关系，因为描述它们的属性都是“红”和“圆”。

不可分辨关系的概念是RS理论的基石，它揭示出论域知识的颗粒状结构。

1.3.3上近似，下近似

给定知识库K=（U,R），对X

且X

U,一个等价关系，R

Ind（K）.称RX=

U/R|Y

X}为X关于R的下近似。

称

U/R|Y

}

为X关于R的上近似。

1.3.4粗糙集

若RX

X则X为R粗糙集。

否则称X为R精确集。

1.3.5重要性

设R是一族等价关系，R

R,如果

ind（R）=ind（R-{R}）,

则称R为R不必要的；否则称R为R必要的。

如果每一个R

R都为R必要的，则称R为独立的；否则称R为依赖的。

1.3.6属性约简

对于A的任意子集B,我们把B叫做A的约简，如果IND（B）=IND（A），

且IND（B−{a}）≠IND（A）[8]

属性约简是粗糙集理论的核心问题之一。

1.3.7决策表

RS理论中应用决策表来描述论域中对象。

它是一张二维表格，每一行描述一个对象，每一列描述对象的一种属性。

属性分为条件属性和决策属性，论域中的对象根据条件属性的不同，被划分到具有不同决策属性的决策类。

对于分类来说，并非所有的条件属性都是必要的，有些是多余的，去除这些属性不会影响原来的分类效果。

约简定义为不含多余属性并保证分类正确的最小条件属性集。

一个决策表可能同时存在几个约简，这些约简的交集定义为决策表的核，核中的属性是影响分类的重要属性。

从另一个角度看，决策表中每一个对象都蕴着一条分类规则，决策表实际上也是一组逻辑规则的集合。

1.3.8决策表定义

决策表可以定义如下：

S=（U,A）为一信息系统，且C,DA是两个属性子集，分别称为条件属性和决策属性，且CD=A，CD=，则该信息系统称为决策表，记作T=（U,A,C,D）或简称CD决策表。

关系IND（C）和关系IND（D）的等价类分别称为条件类和决策类。

1.3.9决策表的分类：

当且仅当CD，决策表T=（U,A,C,D）是一致的。

由命题1，很容易通过计算条件属性和决策属性间的依赖程度来检查一致性。

当依赖程度等于1时，我们说决策表是一致的，否则不一致[9]。

1.3.10决策表的属性约简方法

一致决策表的约简步骤如下：

对决策表进行条件属性的约简，即从决策表中消去某一列；（主要研究点）

消去重复的行；

消去每一决策规则中属性的冗余值。

非一致决策表的约简：

对于一致的决策表比较容易处理，在进行约简时，只要判断去掉某个属性或某个属性值时是否会导致不一致规则的产生。

而对不一致表进行约简时就不能再使用这种方法了，一般采用下面的方法：

一种是考虑正域的变化，另外一种是将不一致表分成完全一致表和完全不一致表两个子表。

非一致决策表的约简步骤与一致决策表的约简步骤类似。

1.3.11Skowron的约简方法

决策表属性约简的过程就是从决策表信息系统的条件属性中去掉不必要的条件属性，已获得表示更简单，对决策更有效的决策规则。

属性约简的方法有很多，其中A.Skowron提出一种用分辨矩阵表示知识的约简方法非常著名，另外还有数据分析约简方法，归纳属性约简算法，基于互信息的属性约简算法，基于特征选择的属性约简算法，基于搜索策略的属性约简算法，等等。

约简算法如下：

令s=（U,R,V，f）是一个信息系统，U为论域且U={x1,x2,…xn},

R=CD是属性集合．子集C和D别是条件属性集和决策属性集，V=是属性值的集合，表示属性值rR的属性值范围，即属性r的值域，f：

URV是一个信息函数，它指定U中每一个对象r的属性值。

r（x）是对象x在属性r上的值，D（x）是记录x在D上的值，则可辨识矩阵记为：

（Cij）m

={r

r（xi）

r（xj）}D（xi）

D（xj）

=0D（xi）=D（xj）

=-1

r（xi）=（xj）D（xi）

D（xj）

i,j=1,2,…,n

以上公式指出：

当决策属性不同且条件属性也不完全相同时，元素值为互不相同的属性组合；当决策属性相同时，元素值为0；当决策属性不同而条件属性完全相同时，元素值为-1，该情况表明数据有误或提供条件属性不足。

一个数据集的所有约简可以通过构造分辨矩阵并且化简由分辨矩阵导出的区分函数而得到，在使用吸收律化简区分函数成标准式后，所有的蕴含式包含的属性就是信息系统的所有约简集合。

根据分明函数与约简的对应关系，A.Skowron提出了计算信息系统S的约简RED（S）的方法：

（1）计算信息系统S的分明矩阵M（S）

（2）计算与分明矩阵M（S）对应的分明函数fM（S）

（3）计算分明函数fM（S）的最小析取范式，其中每个析取分量对应一个约简，将所有的析取表达式进行合并，得到一个合取范式。

（4）将合取范式改为析取范式。

（5）输出属性约简结果。

析取范式中的每个合取项就对应一个属性约简的结为每个合取项中所包含的属性组成约简后的条件属性集合[10],[11]。

为了对决策表进行约简，可以采用分明矩阵的方法对条件属性进行约简，对决策属性相同的个体不予比较。

考虑下面的决策表，条件属性为a,b,c,d，决策属性为e。

表2

U/A

由下面的分明矩阵很容易得到核为{c}，分明函数fM（S）为c∧（a∨d），即

（a∧c）∨（c∧d），得到两个约简{a,c}和{c,d}

表3表2对应的分明矩阵

a,c,d

a,d

a,b,c

a,b,d

根据得到的两个约简，表5可以简化为下列决策表：

表4

U\A

表5

U\A

所有约简的计算是NP-hard问题（NP是Non-deterministicPolynomial的缩写，NP问题就是指其解的正确性可以在多项式时间内被检查的一类问题。

比如说数组求和，得到一个解，这个解对不对呢，显然是可以在多项式时间内验证的。

再比如说SAT，如果得到一个解，也是能在多项式时间内验证正确性的。

所以SAT和求和等等都是NP问题。

然后呢，有一部分NP问题的解已经可以在多项式时间内找到，比如数组求和，这部分问题就是NP中比较简单的一部分，被命名为P类问题。

那么P以外的NP问题，就是目前还不能够在多项式时间内求解的问题了。

如果所有NP问题都可以多项式归约到问题A，那么问题A就是NP-Hard）因此运用启发信息来简化计算以找出最优或次优约简是必要的。

现在在求最优或次优约简的算法一般都使用核作为计算约简的出发点，计算一个最好的或者用户指定的最小约简。

算法将属性的重要性作为启发规则，按照属性的重要度从大到小逐个加入属性，直到该集合是一个约简为止。

行的约简：

对决策表中的重复的行要删除，因为它们的条件属性和决策属性都相同，都表示同一条决策规则。

另外，决策规则的列表顺序不是本质性的，所以表4、表5都可进行约简，如表6可简化为下表：

表6

U\A

对于决策表而言，属性值的约简就是决策规则的约简。

决策规则的约简是利用决策逻辑消去每个决策规则的不必要条件，它不是整体上约简属性，而是针对每个决策规则，去掉表达该规则时的冗余属性值，即要计算每条决策规则的核与约简。

1.3.12基于可辨识矩阵的启发式约简算法

输入：

决策表（U,A{d}），其中A=i=1..n。

输出：

约简：

reduct。

步骤：

<1）令约简后得到的属性集台等干条件属性集台，即reduct=R;

（2）计算可辨识矩阵M，并找出所有不包含核属性的属性组合S;

（3）将所有不包含核属性的属性组合表示析取范式的形式．即

ai,k:

i=1,…s,k=1,…,m};

（4）将P转化为析取范式的形式．并按照公式

（2）计算属性的重

要性。

（5）选择其中重要性最小的属性a，使得reduct,reduct，{a}；

（6）判断约简

展开阅读全文