基于片段和DTW的模式识别通信类中英文翻译外文翻译.docx
《基于片段和DTW的模式识别通信类中英文翻译外文翻译.docx》由会员分享,可在线阅读,更多相关《基于片段和DTW的模式识别通信类中英文翻译外文翻译.docx(22页珍藏版)》请在冰豆网上搜索。
基于片段和DTW的模式识别通信类中英文翻译外文翻译
基于片段和DTW的模式识别
摘要
本文专门对动态过程的状态进行评估。
过程状态和异常将从被测量过程变量的模式中得到,利用这些模式的正确反映和分类,可以对一种确切的运行状态进行识别。
然而相同状态的不同模式有着不同的时间持续或者大小,这篇论文中将提到一种动态时间归正算法(DTW),通过相似性匹配法进行不同模式的比较和分类。
这个算法的主要改进在于利用了片段的方法对模式变量的性质进行反映。
介绍
在动态过程的状态评估中对被测量动态信号的解释是一项最重要的工作,即对错误的检测和修正。
因此,拥有处理信号的工具是十分重要的,性质的反映期望能够代表被监测信号的趋势(倾向、震动度、警示、短暂度…….),特别是在错误的检测和修正中。
根据有关过程和行为的知识,一些技术可以用于这个目的。
利用片段的方法反映信号是其中一种技术。
在这种情况下,一系列的片段被用于描述表征特定变化状况的模式中,然后,问题转化为获得能够表征这些模式的分类机制。
这篇文章将描述用于这种模式识别技术的一种工具。
论文将按照以下线索进行组织。
如下部分讨论用以类似时间级数的方法,然后介绍动态时间归整算法和有关片段的基本概念。
最后,提及DTW的一项新进展并在一个诊断应用例子中进行检查。
时间级数比较
在许多应用中时间级数比较的研究已经大量展开,下一步,将观察距离类似的一些模型。
Agrawaletal.(1995b)提出形状定义语言SDL,用于取回包含在基于形状的历史中的信息。
SDL在它可以进行频率比较的改进的性质描述中永许改变原始的数据。
在Agrawaletal.(1995a)中推出了另一种相似模型,基于两个时间序列如果有足够非重叠时间有序的相似子序列则认为它们是相似的。
由于这一模型的推出,通过建立一个可索引的数据结构,快速搜索技术被用于检测一组序列中的相似序列成分。
Faloutsosetal(1994)或ChanandFu(1999)提出了把Haar微波转变用于时间系列索引问题的其他从收集到的序列中确定有用序列的索引方法。
Keogh和Pazzani(1998)采用了一种新的表示法,组成piecewise线性片段去描述形状和包含每个单独线性片段的重量矢量,并永许用户自己定义各种各样的类似量。
(Keogh&Pazzani2000)介绍了一种支持索引法的维度伸缩办法。
另外一种有关序列相似的有用量是最长共同序列(LLCS)的长度,基于从一个序列传到另一个序列的编辑长度。
Paterson和Dancík,(1994)对一些存在方案进行了修订。
在KonstantinovandYoshida1992中线的组合代表了信号的性质形状。
因此,如果两种瞬时状态的qshapes偶合可以认为它们性质相同。
一个真实时间部分的分析程序,从预先确定的时间间隙中提取qshapes,并把它们与储存了有趣行为的可扩张库进行比较。
在(BakshiandStephanopoulos1994b)中描述了基于片段的模式识别。
每一个模式被一连串元素代表,同时用模式语法的办法进行定义。
包含所有分类信息的特征序列通过与代表这些趋势中的相似事件的明显句法描述的匹配而确定,模式匹配促进了被用语解决需决定树法再次解决的分类问题中的性质和数量的提取。
动态时间归整
通过时间序列数据进行的大部分算法是使用欧几里得距离或者它的一些变化。
然而由于它对于时间轴上小的失真非常敏感,欧几里得距离可以形成相似上的不正确量。
一种试图解决这种不便的方法是动态时间归整法(DTW),这种技术是利用动态方程把时间级数与一个特定的模板对齐使累积距离最小。
DTW已经广泛用于消除词识别中因讲话的不同速度引起的失真。
下面描述DTW的概念:
设两个长度分别为M和N的时间级数X、Y:
X=x1,x2,...,xi,...,xmY=y1,y2,...,yj,...,yn
(1)
为了对齐两序列,DTW将在M*N的矩阵中寻找一个具有K点的W序列,矩阵中每一个元素(i,j)包含了Xi和Xj之间的距离d(Xi,Yj)。
路径W是为了减少两序列间矩阵元素对齐的距离。
W=w1,w2,...,wkmax(m,n)•k•m+n
(2)
wk=[ik,jk](3)
ik和jk分别表示轨道X和Y的索引时间,为了寻找最佳路径Wi,考虑一些关于匹配过程的条件,主要有:
∙路径端点条件:
w1=[1,1],wk=[m,n]。
∙连续性时间匹配路径不可能是逆时的,所以必须满足:
ik+1ik,jk+1jk。
通过把该点距离d(xi,yj)与先前单元中距离的最小值之和D(i,j)作为累积距离来抽取路径:
D(i,j)=d(xi,yj)+min[D(i-1,j-1),D(i-1,j),D(i,j-1)]
(1)
图1:
形状相同的两个信号,a)由于信号不及时对齐,欧几里得距离将产生一个不良结果。
b)dtw找到一个永许相似量的对齐。
这项技术进行了许多更改用于在通过线性代表的较高层面上进行操作。
DTW和基于代表的片段的结合
在前面的部分中,DTW由于其在不同经度下的序列对齐能力而被作为确定不同片段的相似性的一种方法。
不利的方面其算法计算时间过长和试图通过歪曲X轴来解决Y轴的可变性可能引起无法对齐。
在这一部分中,将介绍可以解决这种缺陷的DTW算法。
拟采用的解决方案组成上,DTW将用在基于代表的片段上而不是原始的时间级数上。
作为片段的序列表征通过减少数据的计算量来减少计算时间。
类似的,定义片段的性质特征将回避Y轴的可变问题。
因此,DTW将可用于更长距离的片段对齐中。
唯一的问题是去定义片段间的累积距离。
在这种意义中,一个距离的图表被定义,与前部分所描述的13类片段相一致。
累积距离跟性质状况和定义了不同种类片段的辅助特性有关。
然而,这些累积距离是以用户的标准为条件的,因此…….这样DTW算法的一个新的进展(EPDTW)就建立了,利用片段作为信号更高水平的表征。
必须牢记,被比较的序列可以有不同的持续,这个事实使的拟议技术的概括复杂化,在下一个例子中被分析的序列的长度是不同的,尽管不是太不相似。
诊断应用
如应用的例子中,前面提到的改进已经在一座以诊断为目的的实验室设备中使用了。
在这套设备中,容器A的水位由PID控制器通过从水库(容器B)中抽水来控制。
三个阀门(V1,V2,V3)可以通过控制开或关。
然后打开或关闭阀门的合适组合的一些行为将发生。
表2描述了有关情形。
系统力学可以通过利用外部水填满或者清空水库做稍微改变。
再说外部水的输入或输出也是控制所感兴趣的部分。
试验在假设两种情况不互搭的基础上已经被改进了。
这样,阀门配置方面的改变只有过程是稳态时才被实施。
被监控信号的容器A的水位和控制信号。
监测系统可以检测这些情形并且根据片段序列描述的被测量信号的行为源诊断。
监测系统周期性地获得并作为根据目前描述片段序列的表征。
这些序列通过EPDTW法与其他著名模式进行比较来完成发现和诊断情况的目的。
执行例子
这部分中所讲的例子与表格2中所描述的三个阀门的操作是相一致的。
首先,操作阀们模拟失灵,接着再操作阀们使回到正常操作状态。
前面提到的三种模式(R1、R2和R3)已经得到分别去代表每一个不正常状态,每一种(图5-7)由两个被监测的信号和它在事件中的表征所组成。
然后,三种测试模板T1、T2和T3(图8-10)与相同的情况相一致,但是拥有不同的起点用以与前面提到的模式相比较,从而诊断状态。
首先,每一模式的电平和控制信号在使信号正常化之后已经和一种古典的DTW算法进行了比较,得到的结论在表3和4中给出。
然后,测试模板的序列与前面模板的已知序列用EPDTW算法进行比较。
表5和6给出了电平的控制信号的比较结果。
在所有情形下,所获得的有用结果是一个正常距离,因此,0代表完全匹配。
最后,获得两信号距离主要目的是为了得到每一种状况和不同情况(DTW和EPDTW)下模式之间是本地距离,这种类似评价的结果,在表7和8中给出。
可以看出利用表8比表7更容易分离出正确或错误的诊断。
另一个要考虑的是处理时间。
在这些例子中,利用DTW算法在AMDK2处理器中的最大执行时间是5.34秒,而利用EPDTW算法是0.3seg。
总结
这项工作表明利用片段法进行信号的性质表征和用于诊断领域模式识别的DTW算法的结合是可能的。
既然属于相同状态的不同模式可以有不同的时间持续或重要性,DTW算法的一种改进提出来,用以比较和分类相同模式,利用相似匹配法。
这样,由DTW实现的受时间限制的对齐优势就加到了利用片段作为信号表征的优势中,从水位控制系统的例子中可以看出,控制状况的正确识别可以从当前模式和前面已知模式的比较中得出。
PatternrecognitionbasedonepisodesandDTW
Abstract
Thisworkisorientedtowardssituationassessmentofdynamicprocesses.Processconditionsandabnormalitiescanbedetectedfrompatternsofmeasuredprocessvariables.Then,acorrectrepresentationandclassificationofthesepatternsallowsidentifyingaparticularclassofoperatingsituation.Nevertheless,differentpatternsbelongingtothesameclassofsituationscouldhavedifferenttimedurationormagnitudes.InthispaperamodificationofDynamicTimewarping(DTW)algorithmispresentedinordertocompareandclassifypatternsbymeansofameasureofsimilarity.Themainimprovementintroducedinthisalgorithmistheuseofqualitativerepresentationofprocessvariablesbymeansofepisodes.
Introduction
InterpretationofmeasuredprocesssignalsisanimportanttaskinSituationAssessmentofdynamicprocesses,namelyforFaultDetectionandDiagnosis.Forthisreason,itisnecessarytohavetoolsfordealingwithsignalcomingfromprocesses.Qualitativerepresentationsareproposedtorepresenttrendsofsignals(tendencies,oscillationdegrees,alarms,degreeoftransientstates...)neededinsupervision,especiallyinfaultdetectionanddiagnosis.Accordingtakenowledgeaboutprocessanditsbehaviourseveraltechniquescouldbeusedwiththisaim.
Oneofthesetechniquesistherepresentationofsignalsbymeansofepisodes.Inthiscase,seriesofepisodesareusedtodescribepatternsthatidentifyparticularclassesof
operatingsituation.Thentheproblemistoobtainaclassificationmechanismofthesepatternsinordertoidentifythestateoftheprocess.Inthispaperadescriptionofthetoolsusedinthispatternrecognitionmethodologyisshown.
Thepaperisorganizedasfollows.Inthefollowingsection,similaritymethodsappliedtotimeseriesarediscussed.ThenDynamicTimeWarping(DTW)isintroducedandbasicconceptsrelatedtoepisodesarepresented.Finally,anewapproachofDTWisproposedandtestedinadiagnosisapplicationexample.
ComparingTimeSeries.
Therearenumerousstudiesthathavebeencarriedtocomparetimeseriesofdatainseveralapplications.Next,somemodelsofdistance-similarityareobserved.Agrawaletal.(1995b)presentashapedefinitionlanguage(SDL)forretrievingobjectscontainedinthehistoriesbasedonshapes.SDLallowsconvertingoriginaldatainaqualitativedescriptionofitsevolutionthatallowsacomparisonbetweensequences.
InAgrawaletal.(1995a)anothermodelofsimilarityisintroduced,itisbasedonthenotionthattwotimesequencesaresaidtobesimilariftheyhaveenoughnonoverlappingtime-orderedpairsofsubsequencesthataresimilar.Giventhissimilaritymodel,fastsearchtechniquesareusedfordiscoveringallsimilarsequencesinasetofsequencesbycreatingaindexabledatastructure.OtherindexingmethodstolocatesubsequenceswithinacollectionofsequencesarepresentedbyFaloutsosetal(1994)orChanandFu(1999)whereaHaarwavelettransformationisusedforthetimeseriesindexingproblem.
Anewrepresentation,adoptedbyKeoghandPazzani(1998),consistsofpiecewiselinearsegmentstorepresentshapeandaweightvectorcontainingtherelativeimportanceofeachindividuallinearsegment,allowingtheusertodefineavarietyofsimilaritymeasures.(Keogh&Pazzani2000)introduceadimensionalityreductiontechniquethatsupportsanindexingalgorithm.
Ausefulmeasureofsimilarityforstringsisthelengthofalongestcommonsubsequence(LLCS),basedontheeditdistancerequiredinpassingfromonestringtoanotherone.PatersonandDancík,(1994)carryoutarevisionofsomeexistingsolutions.
In(KonstantinovandYoshida1992)thequalitativeshapeofasignalisrepresentedbythecombinationofstrings.Hence,twotemporalshapesareconsideredqualitatively
equivalentiftheirqshapescoincide.Arealtimeanalyzingprocedureextractsqshapesoverapredefinedtimeintervalandcomparesthemwiththoseofanexpandableshape
librarythatstoresallinterestingbehaviours.
Amethodologyforpatternrecognitionbasedonepisodesisdescribedin(BakshiandStephanopoulos1994b).Eachpatternisrepresentedbyastringofprimitives,alsoidentifiedbymeansofapatterngrammar.Thestringthatcapturesallthefeaturesnecessaryforclassificationisdeterminedbymatchingthedistinctsyntacticdescriptions,whichrepresentsimilareventsinthesetrends.Patternmatchingfacilitatesextractionofqualitativeandquantitativefeaturesusedforsolvingtheclassificationproblemresolvedbymeansofdecisiontrees.
DynamicTimeWarping.
MostofalgorithmsthatoperatewithtimeseriesofdatausetheEuclideandistanceorsomevariation.However,Euclideandistancecouldproduceanincorrectmeasureofsimilaritybecauseitisverysensitivetosmalldistortionsinthetimeaxis.
AmethodthattriestosolvethisinconvenienceisDynamicTimeWarping(DTW),thistechniqueusesdynamicprogramming(SakoeandChiba,1978;Silverman,1990)toaligntimeserieswithagiventemplatesothatthetotaldistancemeasureinminimised(Fig.1).DTWhasbeenwidelyusedinwordrecognitiontocompensatethetemporaldistortionsrelatedtodifferentspeedsofspeech.Next,abriefnotionofDTWisdescribed.
GiventwotimeseriesXandY,oflengthmandnrespectively
X=x1,x2,...,xi,...,xmY=y1,y2,...,yj,...,yn
(1)
Toalignthetwosequences,DTWwillfindasequenceWofkpointsonam-by-nmatrixwhereeveryelement(i,j)ofthematrixcontainsthedistanced(xi,yj)betweenthepointsxiandyj.ThepathWisacontiguoussetofmatrixelementsthatminimisethedistancebetweenthetwosequences..
W=w1,w2,...,wkmax(m,n)•k•m+n
(2)
wk=[ik,jk](3)
whereikandjkdenotethetimeindexoftrajectoriesXandYrespectively.InordertofindthebestpathW,someconstraintsonthematchingprocessareconsidered,mainonesare:
∙Constraintsattheendpointsofthepath,w1=[1,1]andwk=[m,n]
∙Continuityconstraints,matchingpathscannotgobackwardsintime,thisisachievedforcingik+1ikandjk+1jk.
Thepathisextractedbyevaluatingthecumulativedist