高速数据流的集成分类器算法.docx-资源下载

高速数据流的集成分类器算法.docx

1、高速数据流的集成分类器算法面向高速数据流的集成分类器算法摘要:数据流挖掘要求算法在占用少量内存空间的前提下快速地处理数据并且自适应概念漂移,据此提出一种面向高速数据流的集成分类器算法。该算法将原始数据流沿着时间轴划分为若干数据块后,在各个数据块上计算所有类别的中心点和对应的子空间;此后将各个数据块上每个类别的中心点和对应的子空间集成作为分类模型,并利用统计理论的相关知识检测概念漂移,动态地调整模型。实验结果表明,该方法能够在自适应数据流概念漂移的前提下对数据流进行快速的分类,并得到较好的分类效果。关键词:概念漂移;数据流;子空间;分类;集成ensemble classification alg

2、orithm for high speed data stream英文作者名li nan1,2, guo gong-de1,2*英文地址(1.school of mathematics and computer science, fujian normal university,fuzhou fujian 350007,china;2.key laboratory of network security and cryptography, fujian normal university,fuzhou fujian 350007,china)abstract: the algorithms f

3、or mining data streams have to make fast response and adapt to the concept drift at the premise of light demands on memory resources. this paper proposed an ensemble classification algorithm for high speed data stream. after dividing a given data stream into several data blocks, it computed the cent

4、ral point and subspace for every class on each block which were integrated as the classification model. meanwhile, it made use of statistics to detect concept drift. the experimental results show that the proposed method not only classifies the data stream fast and adapt to the concept drift with hi

5、gher speed, but also has a better classification performance.key words: concept drift; data stream; subspace; classification; integration0引言随着信息产业的发展,超市交易、电信等众多应用领域每天都产生大量的数据流,其中蕴含着丰富的有价值的知识有待挖掘,近年来已成为数据挖掘领域的一个研究热点。由于数据流具有快速性、无限性和实时性的特点1,使得传统的挖掘算法显得有些力不从心。同时,数据流中隐含的概念或知识可能会随着时间的推移或环境的改变而发生变化, 即1996年

6、widmer和kubat2提出的概念漂移问题。因此,数据流挖掘要求算法能在有限的计算时间和内存资源内完成挖掘任务,并且根据当前的概念自适应地改变模型3。目前,处理数据流上概念漂移的方法有3种4:实例选择、实例加权和集成学习。hansen等5证明使用集成分类器方法比仅使用单个分类器方法具有更好的适应性和精确性。wang等6提出了一个集成学习的通用框架用于挖掘概念漂移数据流。street等7提出一个可以自适应数据流概念漂移的集成分类器算法(streaming ensemble algorithm, sea),展示了集成学习的有效性。此后,许多学者深入研究了集成分类器的权值设计8-10以及集成策略1

7、1-13。然而,上述已存在的数据流分类模型不仅构建模型耗时多,而且面临着同一个问题:当数据流中只有少部分类别发生概念漂移时,仍必须抛弃现有的整个集成分类模型进行重建以适应新的概念,降低了分类效率。针对以上问题,本文提出了一种新颖的面向高速数据流的集成分类算法(简称eca)。1相关工作1.1eca基分类器构建最近邻分类是一种已经被众多学者广泛研究的有监督的机器学习方法。经典的k-最近邻(k-nearest neighbor, knn)算法14由于简单但颇为有效被列为十大数据挖掘算法之一15。然而,其面临分类速度较慢和k值难以确定的问题。为了解决分类效率低的问题,近期有学者通过将同类别数据聚类生成

8、若干关键数据以减少要搜索的近邻数,在不失分类精度的前提下提高了分类速度16。受其启发,本文提出一种基于子空间中心点的分类算法作为eca的基分类器。设训练数据集x由n个样本组成,即x=(x1,y1),(x2,y2),(xi,yi),(xn,yn)。其中xi表示由d个属性构成的第i个样本,即xi=xi1,xi2,xid;yi1,2,k表示xi的类别, k(k1)表示训练集中包含的类别个数。为了进一步减少要搜索的近邻数目以提高分类效率,将所有同类别的数据组成一个中心点,记为:centerk=ck1,ck2,ckd。centerk=1num(k)yi=kxi(1)其中num(k)表示第k类的样本数目。

9、显然,将所有同类别数据仅用一个中心数据来表示不仅提升了模型对噪声的鲁棒性,同时大大提高了分类效率。但值得注意的是,将所有同类别数据仅用一个中心数据来表示分类时容易受到数据离散程度的影响,图1就是个例子。在二维空间上空心的椭圆和矩形分别代表两类不同的样本,其中心点各自用实心的椭圆和矩形表示。如果简单地利用各自的中心点来代表所有同类数据,根据测试样本在全空间上距离两类中心点的距离来进行分类(相当于用图中的虚线作为分类标准),显然不能正确地代表数据的分布情况,分类处在全空间类别边界上的点时精度受到影响。因此,有必要对其进行进一步改进。图片图1中心点分类例子数据空间中往往存在许多不相关的属性,在全空间

10、上表现为同类别的点是“离散的”,只在某些低维的子空间上是“密集的”17。为了减少数据离散程度对分类模型所造成的影响,我们将测试样本投影到每个类别所在的子空间上,即利用加权的欧氏距离来衡量测试样本与各个类别中心点的距离。算法基于软子空间聚类18的普遍假设:“维度权重大小与同类数据点投影到该维度上的分布离散程度成反比”的思想来建立每个类别所在的子空间,记为:1.2基分类器算法空间复杂度分析设在大小为s、类别个数为k的数据块上构建基分类器,根据上述算法流程,其所需的存储空间为o(k),即存储k个中心点数据,通常k s并且k与s无关。同时,求取中心和权重的过程时间复杂度与s的大小成线性关系,即算法时间

11、复杂度为o(s)。综上,相对于数据块大小s,该基分类器算法具有常数的空间复杂度和线性的时间复杂度。因此,该算法适合作为数据流集成分类器的基分类器算法。第3期李南等:面向高速数据流的集成分类器算法计算机应用第32卷2eca的设计与分析本章先介绍eca分类模型的概念漂移检测机制,然后对算法进行具体描述。算法使用滑动窗口模型,将数据流沿时间轴组织成固定大小s的数据块序列,每个数据块用d1,d2,dn表示。2.1漂移检测本文采用假设检验中2拟合检验的原理来进行漂移检测。其基本思想是如果相邻两个数据块内关于同一类别的数据的分类精度在一定的显著性水平下有显著改变,那么就有理由认为新数据块上的此类数据概

12、念发生变化,需要重构该类别的分类模型。2拟合检验的原理20是:当总体的分布未知时,根据样本x1,x2,xn来检验关于总体分布的假设“h0:总体x的分布函数是f(x)”。设x的取值范围为a1,a2,az。以fi(i=1,2,z)记录n个样本观测值x1,x2,xn落在ai的个数,pi(i=1,2,z)为根据h0所假设的x的分布函数来计算事件ai的概率。那么若样本个数n充分大,则当h0为真时,统计量2=zi=1fi 2npi-n近似地服从2(z-1)分布。即当样本的观测值使2值有22(z-1),则在显著性水平下拒绝h0;否则就接受h0。eca使用上述的原理检测概念漂移,依次对当前数据块上每个类别的分

13、类情况进行假设检验,设置z=2(分类正确与否两种情况),h0为前若干个概念平稳的数据块上该类别的平均分类情况,显著性水平取0.05。若在新数据块上22(z-1),则该类别分类精度发生显著性改变,从而说明发生了概念漂移;反之认为概念分布平稳。2.2eca描述eca由为每个类别保存的在不同数据块上建立的多个中心点和对应的子空间组成集成模型。同时,当使用数理统计的相关知识检测到数据流的少部分类别发生概念漂移时,无需像现有的集成分类算法8-13一样,耗时耗力地重构整个集成分类模型,降低算法的分类效率。新算法只需将新数据块上建立的符合新概念的该类别的中心点和对应的子空间替换原有分类模型中的即可,符合数据

14、流要求算法能快速处理数据并且自适应概念漂移的特点。算法流程具体如下:1)当新的数据块到来时,eca先利用现有的分类模型,计算新数据块中各待分类样本与每个类别的距离(距离采用在相应的子空间上待分类样本与为每一个类别保留的不超过num个在各个数据块上建立的中心点的平均距离作为待分类样本距离此类别的距离),选取距离最近的类别作为待分类样本的类别。2)在新数据块上利用baset算法建立该数据块上各类样本的中心点和对应的子空间。3)根据分类情况检查各类别是否发生概念漂移。4)一旦检测出某个类别发生概念漂移,那么删除原有分类模型中所有为该类别保存的中心点和对应的子空间,保存新数据块上建立的该类别的中心点和

15、对应的子空间。如果没有发生概念漂移,先保存新数据块上建立的该类别的中心点和相应的子空间,再判断原有分类模型中为该类别保存的中心点和相应的子空间个数是否超过num，如果超过，则删除最早建立的那个数据块上构建的中心点和对应的子空间。算法每个数据块上对应的处理流程如下:算法eca。输入集成分类器ecn-1,当前数据块dn,为各类别保存的中心点和相应的子空间容量num。输出当前分类模型ecn。程序前其中:ec表示eca集成分类模型,ecn 表示第n个数据块时的集成分类模型。通过算法流程可看出：eca中利用现有分类模型对当前数据块中的数据进行分类,显然只需要相对于数据块大小线性的时间复杂度,其余时间耗费

16、在使用baset算法在新数据块上建立新的分类模型以对现有模型进行更新。在大小为s、类别个数为k的数据块上,baset算法为每类计算其中心点及其对应的子空间需要相对于该类别样本数目线性的时间复杂度,因此整体的时间复杂度为o(ks),通常k s并且k是独立于s的常数。因此,相对于数据块大小s,利用baset算法对分类模型进行更新具有线性的时间复杂度。综上所述,eca具有相对于数据块大小s线性的时间复杂度,适合数据流分类模型快速处理的要求。3实验分析与讨论为了评估eca的性能,我们在分别在真实数据集和实验数据集上对算法的精确度和分类效率进行实验。实验环境如下:2.6ghz cpu和2gb ram;操

17、作系统为windows xp;开发环境为基于java语言的weka平台,编译运行环境为jdk 1.5。3.1使用的算法为了验证本文算法的有效性,对比算法使用经典的sea、目前比较流行的实例加权集成分类器(example-weight algorithm for mining data streams, ewamds)算法8以及分类器动态集成的dwm(dynamic weighted majority)算法11。实验中各种算法的具体参数设置分别参照文献7-8,11中的实验参数,eca中为各类别保存最多不超过5个在各数据块上建立的中心点和对应的子空间个数,即num=5。3.2数据集分别在以下两个数

18、据集上进行实验以检验eca解决数据流分类问题的有效性。1)移动超平面(hyperplane)21:一个d维超平面上的样本x满足形式:di=1aixi=a0。在实验中,取d为100,并且随机产生3个不同的权重集合。实验使用30000条数据,蕴含3个概念,2次漂移。其中每个概念含有10000条样本,并包含5%的噪声样本。2)20-newsgroups(http:/mlg.ucd.ie/files/dataset):一个常用的文本数据集,它是由20个不同新闻组的文档组成。本文使用的数据集是20-newsgroups来自同一个新闻组的部分样本集合,一共分为6类:med、baseball、autos、m

19、otor、space和politics。实验中随机抽取了4498条样本,各类分布情况见表1所示,每个样本包含500个特征属性。为了消除文档的长度差异带来的影响,数据事先进行了单位向量长度变换。为了模拟一个多类别漂移的情况,以验证算法对真实复杂数据中出现新类问题的快速适应性以及对多类分类问题的处理能力,将数据集划分为两大块:在第一大块数据中,只有med、baseball、autos和motor 4类;在第二大块数据中,淘汰了motor类的数据,并添加了space和politics两个新的类别。表格(有表名)表120-newsgroups中各类分布类别实例个数类别实例个数med1162motor6

20、00baseball1162space562autos450politics5623.3实验结果与分析3.3.1移动超平面数据集各种算法在移动超平面数据集上每个数据块上的精度对比结果如图2所示。由于移动超平面样本个数较多,将数据块大小设置为500。从图2可看出：在第20和40个数据块时,由于数据出现概念漂移的情况,各种算法的分类精度骤然下降。但是,随着漂移数据的增多,分类器逐渐适应了新的概念,分类精度也恢复到了原先的水平。由于sea使用c4.5作为基分类器,在处理维度较高的数值型属性数据时分类精度会受到影响,因而分类效果最差。同时,我们可以看出,在大部分情况下,eca分类精度优于dwm算法,和

21、ewamds算法相当。此外,各种算法在移动超平面数据集上的处理时间如图3所示。从图3可看出：由于基分类器构造方式简单,eca上在处理时间上对比其他3种算法具有相当的优势。图片图2含5%噪声的移动超平面数据流上的分类精度比较图片图3含5%噪声的移动超平面数据流上的处理时间比较3.3.220-newsgroups数据集由于移动超平面是一个二分类问题,为了验证eca在真实复杂结构数据流中面对出现新类问题的快速适应性以及对多类分类问题的处理能力,在20-newsgroups数据集上进行了测试,此次测试将数据块大小设置为250。各种算法在每个数据块上的精度对比如图4所示。从图4可看出：在第8个数据块时,

22、由于新类别数据的出现旧类别数据的消失,原有的分类模型已经不适应新数据块的概念,因而各种算法的分类精度出现不同程度的下降。由于dwm算法仅根据分类模型中各基分类器的累积错误动态地删除和新建基分类器,因而分类精度降低的幅度最小。同时,在概念稳定以后,eca的分类精度高于其他3种算法。此外,各种算法对20-newsgroups数据流中每类数据的分类正确率见表2所示。从表2可看出：对于6种类别的判断,eca都具有较高的分类精度。各种算法在20-newsgroups数据流上的处理时间如图5所示。虽然只有部分类别发生概念漂移,3种对比算法仍需重建整个分类模型,无需重建整个模型、基分类器构建简单的eca在处

23、理时间上具有明显的优势。同时ewamds算法需要为新数据块上的每个样本计算其相应的权重,故需要最长的处理时间。4结语本文针对现有集成分类方法构建分类模型耗时多,在数据流仅部分类别发生概念漂移时仍需重建整个分类模型,分类效率低的缺点,提出一种新的线性时间复杂度的集成分类算法。新算法在部分类别发生概念漂移时仅需重建相应部分的分类模型,从而提高分类效率。在移动超平面和20-newsgroups数据流上的实验表明,与经典的sea、当前比较流行的ewamds算法和dwm算法相比,新算法能够在自适应概念漂移的情况下对数据流进行快速分类,并得到较好的分类效果。下一步工作的重点是研究基分类器的建立方法,从而进

24、一步提高分类性能。参考文献:1李燕,张玉红,胡学钢. 基于c4.5和nb混合模型的数据流分类算法j.计算机科学,2010,37(12):138-142.2widmer g, kubat m. learning in the presence of concept drift and hidden contexts j. machine learning,1996,23(1):69-101.3王黎明,周驰.自适应概念漂移的在线集成分类器j.计算机工程,2011,37(5):74-76.4tsymbal a, pechenizkiy m, cunningham p, et al. dynamic

25、integration of classifiers for handling concept drift j. information fusion, 2008,9(1):56-68.5hansen l k, salamon p. neutral network ensemble j. ieee transactions on pattern analysis and machine intelligence, 1990, 12(10):993-1001.6wang h, fan w, yu p. et al. mining concept drifting data streams usi

26、ng ensemble classifiers c/ kdd 03: proceedings of the 9th acm sigkdd international conference on knowledge discovery and data mining. new york: acm press, 2003:226-235.7street w, kim y. a streaming ensemble algorithm (sea) for large-scale classification c/ kdd 01: proceedings of the 7th acm sigkdd i

27、nternational conference on knowledge discovery and data mining. new york: acm press, 2001:77-382.8胡学刚,潘春香.基于实例加权方法的概念漂移问题研究j.计算机工程与应用, 2008, 44(21):188-190.9欧阳震诤,罗建书,胡东敏,等.一种不平衡数据流集成分类模型j.电子学报,2010,38(1):184-189.10张健沛,杨显飞,杨静.面向高速数据流的偏倚抽样集合分类器j.北京邮电大学学报,2010,33(4):44-48.11jeremy z k, marcus a m. dynamic weighted majority: an ensemble method for drifting concepts j. journal of machine research, 2007,8(12):2755-2790.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？