基于数据模式识别整合框架的SOFMSVM模型及其应用Word文档下载推荐.docx
《基于数据模式识别整合框架的SOFMSVM模型及其应用Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《基于数据模式识别整合框架的SOFMSVM模型及其应用Word文档下载推荐.docx(25页珍藏版)》请在冰豆网上搜索。
结合统计聚类中的聚类误差概念定义
一个聚类数有效性指标,利用SOFM算法中间结果进行指标求解,以筛选出有效
或最佳聚类数;
提出一种新的噪声识别算法Anti-NO算法用于对样本中的异常数
据进行甄别和过滤;
利用SVM模型的中间结果提取分类边界数据;
进一步充实
了包括模式类、噪声集和边界在内的模式识别成果。
最后将该整合模型应用于上
市公司信用模式识别的实例,证明该整合策略和模型对于解决C2CMA数据挖掘
任务是可行有效的,同时为定量研究证券信用模式分类问题做出新的探索。
关键词:
模式识别聚类分类自组织特征映射支持向量机信用模式1基于数据模式识别整合框架的SOFM-SVM模型及其应用
Abstract
Basedonthetheoryandmethodsofdatapatternrecognition,thisthesisfocused
onthedisadvantagesoftheunaidedusewithunsupervisedclusteringandsupervised
classifyingmethodtoclassifytheunlabeleddatasamples,andfurtherlyproposeda
methodof"
C2CMA"
fromclusteringtoclassificationminingapplication,which
integratesclusteringwithclassifyingmethodtosolvetheproblemofpattern
recognition.Anintegratedstrategycalled"
DPRIF"
DataPatternRecognition
IntegratedFramewasalsoproposed,whichisusedtodiscoverandexplaindata
patternwhensamplesetislackoflabeledinformation.Itcanalsobeusedtocreatea
classifierwhichismorestableandmoreaccurate,andcanbeusedtodiscriminateand
forecastnewdata.UndertheguidanceofDPRIFintegratingstrategy,wesetupan
integretedSOFM-SVMmodel.Thenweanalyzedandoptimizedthemodelfromthe
aspectsofoperatingmechanism,datainterfaceandfunctionexpandedness.ThePCA
methodwasintroducedtoreducedimensionalityandextractfeatures,thento
strengthentheclusteringexplanation;
definedaCMIindex,toascertainthemost
effectiveorthebestclusteringnumber;
AnewAnti-NOalgorithmwasproposedto
recognizeandtofilterthesuspeciousdatainthesample;
ThemediumresultofSVM
modelwasusedtoextracttheborderlinedatasbetweentwoclassifiedgroups.This
researchcompensatedfortheachievementsofdatarecognitionincludingpatterndata,
noisesdataandborderlinedata.Finallytheintegratedmodelwasusedinthe
recongnitionoflistedcompanies'
creditpattern.TheresultsprovedthatthisDPRIFand
SOFM-SVMmodeliseffectiveinsolvingC2CMAproblem.Furthermore,weexplored
inquantitativeresearchontheissueofstock'
screditpatternrecognition
Keyword:
PatternRecognition,Clustering,Classification,SOFM,SVMCreditPattern2基于数据模式识别整合框架的SOFM-SVM模型及其应用
中文摘要1
Abstract2
第一章综述1
1.1模式识别的概念及其内容..1
1.2国内外研究现状..1
1.3当前研究的重点和发展趋势4
1.4本文的主要工作..5
第二章数据模式识别整合框架.6
2.1分离的模式识别方法的不足和整合模式识别框架(DPRIF)的提出6
2.2DPRIF的整合优势12
2.3DPRIF需要解决的若干问题..13
2.4本章小结14
第三章基于DPRIF的SOFM-SVM模型基础15
3.1自组织特征映射神经网络(SOFM)及其算法.15
3.2SVM基本原理及其基本模型..18
3.3整合SOFM-SVM模型22
3.4本章小结26
第四章基于DPRIF的SOFM-SVM模型局部分析和改进.27
4.1特征提取和聚类解释问题?
?
降维PCA处理27
4.2聚类数目与聚类有效性分析?
CMI算法..28
4.3噪声的过滤问题?
Anti-NO算法..30
4.4分类边界问题?
提取分类边界..33
4.5多类分类器的处理?
多类SVM34
4.6本章小结35
第五章基于DPRIF的整合SOFM-SVM模型在上市公司信用模式识别中的应用36
5.1应用背景36
5.2实证分析过程.37
5.3小结评价45
第六章结论与展望..46
参考文献.47
附录一:
2002年200只沪深上市公司股票数据(未经标准化)?
训练集51
附录二:
2002年78只沪深上市公司股票数据(未经标准化)?
测试集..56
在学期间发表的论文及科研成果58
致谢593第一章综述
第一章综述
1.1模式识别的概念及其内容
模式识别技术是20世纪六十年代初发展起来的一门学科。
它体现了一种“物以类聚”的
思想,它所研究的理论和方法在很多学科和技术领域得以广泛应用,推动了人工智能系统的
发展,扩大了计算机技术的应用领域。
模式(Pattern)是对象的适当抽象和表达。
模式识别(PatternRecognition)是一门研究
对象描述和分类方法的学科,即依据一定特征属性或标准,通过一定的方法和手段,使原本
凌乱涣散的对象得以归类研究,既便于从宏观上认识和把握已知事物的抽象化特征和共性,
更利于对未知的、未来的新事物做出推断。
它的研究对象和对象的属性值有多种类型,如信
号系统、图象系统、符号系统和数值系统等,一般较为常见的是数值型对象,起对应的方法
也比较多,而且很多其他形式的对象及其属性值可相应转换成数值类型。
所以,本文所指的
模式对象主要是数值数据。
相应地,数据模式识别定义为:
从数值型属性对象中进行模式发
现、描述、分类的过程。
模式识别的方法有多种,但其目标是要在表示空间和解释空间中找到映射关系,为达此
目的,一般有两类方法:
1、无监督学习、数据驱动、归纳的方法:
事先没有关于样本类别的先验知识,通过一种有效的方法“发掘”样本的内在相似性而
进行分类,主要是各种聚类方法包括统计聚类、模糊聚类、神经网络聚类等;
2、有监督学习、概念驱动、演绎的方法:
在给定的模式下(有样本的类别信息)假定存在一个映射,用训练集与目标值对应以逼
近这个映射,主要是各种分类方法:
统计判决、神经网络分类、支持向量机分类等。
一个模式识别系统概图如下:
输入感知特征提取分类后处理结论或决策
1.2国内外研究现状
由于本文研究的思路主要集中在模式识别过程、方法的结构化整合和集成上,而整合的
框架和逻辑结构又是按从无监督聚类向有监督分类的方向推进的,所以对国内外研究现状的
综述主要集中在聚类和分类两方面技术发展,并一定程度上综述了这两方面的应用研究现状。
1.2.1国外研究现状
1.2.1.1统计模式识别方法的发展
国外的模式识别研究始于统计模式识别理论和方法的开创。
在早期研究阶段,Duda和
1第一章综述
[1][2][3]
Hart、Tou和Gonzalez、Fu等人把模式识别问题阐述为统计判决问题,即把模式识别问
题表示成多维空间中的密度函数的估计问题,并在多维空间中划分类别或区域,这些判决超
平面是通过合适的判决函数来表示的。
[16]
在聚类分析的研究方面,Hartigan(1975)较为系统地分析了聚类的典型目的,认为
聚类是为了“获得数据的有用概括和解释”,指出将数据从聚类性质方面解释取代了将其从单
独的属性方面解释的重要性。
根据一定模式的相似性测度(如各种距离测度、相似性测度、
匹配测度)和样本在聚类中的积聚规则,迄今在统计模式识别领域已发展了很多种聚类方法,
比较常用的有:
系统聚类法、动态聚类法(C-均值法及其改进)、ISODATA法(K-均值法及
[17~20]
其改进)。
随着模糊集合论的兴起,Bezdek和Dunn(1987)等人也开始把模糊处理方法
引进聚类分析(如C-均值模糊聚类法),此后人们提出了多种模糊聚类方法。
在聚类的有效
性分析方面,国外研究偏向于利用聚类价值指数来反映类内相异程度的,其中McIntyre和
[21]
Blashfield(1980)提出了一种称为“复制分析”(类似于交叉有效性分析)的有效性检验
[15]
方式;
此外,Milligan(1996)还提出了