第一章绪论Word格式.docx
《第一章绪论Word格式.docx》由会员分享,可在线阅读,更多相关《第一章绪论Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
1、什么是模式识别,是不是就是机器自动识别、或机器自动分类?
常说的语音识别、汉字识别、手写体识别是不是属于这门学科的内容
2、模式识别这门课有用吗?
哪里可以应用?
3、机器自动识别的最基本原理是什么?
知识点
模式识别的含义——机器自动识别与分类
1.1模式识别和模式的概念
模式识别是六十年代初迅速发展的一门学科。
它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,推动了人工智能技术及图像处理、信号处理、计算机视觉、多媒体技术等多种学科的发展,扩大了计算机应用的领域。
了解与熟悉模式识别的一些基本概念与基本处理方法对研究与从事人工智能、图像处理、信息处理、计算机视觉、多媒体技术等方面工作的人们乃至计算机科学其它领域的人们都是很有益处的。
模式识别(PatternRecognition)这个词对许多人来说很陌生,然而实际上人类却在日常生活的每个环节,从事着模式识别的活动。
可以说每个有正常思维的人,在他没有入睡时都在进行模式识别的活动。
坐公共汽车找汽车站,骑车判别可行进道路,对观察到的现象作出判断,对听到的声音作出反应,判断东西的好与坏以及水果的成熟与否等等都是人们判断是非,判别事物的过程。
但是对模式识别这个词就显得陌生而难以理解了。
确切地说,模式识别在这里是针对让计算机来判断事物而提出的,如检测病理切片中是否有癌细胞,文字识别,话语识别,图像中物体识别等等。
该学科研究的内容是使机器能做以前只能由人类才能做的事,具备人所具有的、对各种事物与现象进行分析、描述与判断的部分能力。
模式识别这个词是PatternRecognition翻译来的,通俗一点讲究就是机器识别,计算机识别,或机器自动识别。
Pattern这个词翻译成模式,就是要让机器自动识别的事物,如一个具体数字,是印刷体还是手写体。
识别的结果就是给他分类,分到具体的数字类中。
对数字来说,其结果可表示成它的相应代码,如ASCII码。
对于一个智能交通系统来说,是要识别是否有汽车闯红灯,闯红灯的汽车车牌号码等。
要让机器能识别、分类,就需要研究识别的方法,这就是这门学科的任务。
人类在观察事物与作出判断时,常常把所见到的具体事物与脑子里对某个事物的“概念”联系起来,从而按这些概念对它们实行分类。
人们能将所见到的具体的、外表各异、各具特色的汽车与脑子中已形成的“抽象”的汽车概念联系起来,并能明确地分辨汽车与拖拉机、坦克车等之间的不同之处,实现正确的分类。
拿模式识别的术语来说,所见的具体事物是样本,而它们所属的事物是类别,代表这些事物的“概念”是模式。
也有另一种说法把所见到的事物称为模式,而将它们的归属类别称为模式类。
因此模式这个词,有时则代表类别事物的称呼,而有时则强调具体事物,其具体含义依上下文关系而定,一般不会产生混淆。
与人辨别事物相比,机器识别事物的方法是很不同的,在目前也是很简单与低级的,因此机器识别事物的能力还很差。
这主要的原因是人们在学习与认识事物中会总结出规律,并把这些规律性的东西抽象成“概念”。
人之所以能“抽象出概念”,关键能分析事物中哪些是本质,哪些是表面现象,或由偶然因素引起的。
但机器目前的抽象能力是很差的。
要让机器准确地把握事物的本质,弄清分辨事物的关键,从而正确辨别事物,实质上是要使人能够研究出好的方法,提出好的算法,从而构造出好的系统,使机器辨别事物的本领更强。
模式类与模式,或者模式与样本,在集合论中是子集与元素之间的关系。
当用一定的度量来衡量两个样本,而找不出它们之间的差别时,它们在这种度量条件下属于同一个等价类。
这就是说它们属于同一子集,是一个模式,或一个模式类。
而不同的模式类之间应该是可以区分的,它们之间应有明确的界线。
但是对实际样本来说,有时又往往不能对它们进行确切的划分,即在所使用的度量关系中,分属不同的类别的样本却表现出相同的属性,因而无法确凿无误地对它们进行区分。
例如在癌症初期,癌细胞与正常细胞的界线是含糊的,除非医术有了进一步发展,能找到更准确有效的分类方法。
让机器辨别事物的最基本方法是计算,原则上讲是对计算机要分析的事物与作为标准的称之为“模板”的相似程度进行计算。
譬如说脑子里有没有瘤,就要与标准的脑图像以及有瘤图像做比较,看跟哪个更相似。
要识别一个具体数字,就要将它与从0到9的样板做比较,看跟哪个模板最相似,或最接近。
因此首先要能从度量中看出不同事物之间的差异,才能分辨当前要识别的事物(称为测试样本)跟哪类事物更接近。
因此找到有效地度量不同类事物的差异的方法是最关键的。
1.2模式的描述方法
联想到人们认识事物,都是从不同事物所具有的不同属性为出发点的,因此用来决策事物类别的特点、属性就称之为物体所具有的特征。
在模式识别技术中,模式就是用它们所具有的特征描述的。
对一种模式与它们的样本来说,将描述它们的所有特征用一特征集表示
其中O表示模式或样本的名称,则是它们所具有的特征。
特征包括定性与定量两种描述。
模式的描述方法:
对于具体事物的描述大体上可分为两种。
一种是对事物的属性进行度量,属于定量的表示方法。
另一种则是对事务所包含的成分进行分析,称为定性的描述或结构性描述。
定性是指特征的有与无,例如坦克与汽车都有驾驶装置,这不能作为区分它们的特征,但坦克有炮,汽车无炮,有没有炮是划分它们的一种有效特征。
然而一些不同类别的事物往往具有相同的特征种类,或者用同样的特征度量去检测,但它们在这些特征的取值上有差别,在这种情况下特征值的取值范围成为辨别事物的重要依据。
例如癌细胞与正常细胞都用同样的观察手段与量测手段去检测,而依据所得特征值分布范围将它们区分开来。
在这种情况下,模式的特征集表示,又可写成处于同一个特征空间的特征向量表示。
待识别的不同类模式都在同一特征空间中考察,不同类物体由于性质上的不同,它们在各特征取值范围上有所不同,因而在特征空间的不同区域中出现。
本书就是在特征空间与特征向量这种表示模式的方法前提下,讨论模式识别的基本理论与基本方法。
这种方法称为统计模式识别,是这门课的基本内容。
定量的描述就是用各种尺度对事物进行度量。
例如对水果进行分类,就需要对它的各种属性进行度量,水果的重量、大小、颜色、香味乃至味道等。
由于对事物的度量是多方面的,因此要用合适的数据结构将它们记录下来,以便在同一种度量之间进行比较。
常用的方法是将这些度量指排成序,譬如用水果的重量,近似球体直径。
这两个指标按规定的先后排起来,如一只苹果重0.3斤,直径10厘米,则可表示成(0.3,1.0)。
因此如看到一个数据为(0.35,12)则可解释成重量为0.35斤,直径12厘米。
这种表示方法就称为向量表示法,该向量有两个分量,每个分量有自己特定的含义。
为了形象起见,我们可以用一个二维向量为例来说明,如一个二维向量A表示成(x,y),则(3,4)就是指x=3,y=4。
如果用图像来表示,则可如图:
用式子表示,可写成:
或A=(3,4)。
我们把前一种称为列向量,后一种称为行向量,在本课中主要用列向量表示,而将其相应的列向量表示叫做其“转置”,用符号T表示:
如:
,则
。
这时,有些同学可能会问,一个苹果的颜色用什么方式表示。
这牵涉到颜色的表示方法。
如果颜色只能用某些典型色来表示,如红、橙、蓝、绿、紫,那么,这种情况只能用代号表示,如令红为1号,橙为2号,等等。
这样一来,上面提到的苹果如加上颜色描述,则可用一个三维向量,(0.35,10,1)。
对这些数字的理解要根据它的定义与所用单位来确定。
对颜色的另一种表示方法,可以用常用的RGB表示。
R,G,B分别表示三种基色成分,这本身就是一个三维向量,如与重量、尺度汇合在一起,就是一个五维的向量。
有一些事物用向量表示是不方便的,例如一幅景色图像中的房屋用向量描述就不一定方便,对房屋而言,它有屋顶、墙、门窗等组成,各种成分之间又有相互关系,则墙在屋顶之下,门与窗都在墙上等。
这种由组成成分与相互关系表示的表示方法,最好用结构性的表示,常用的有串、树、图等。
在本门课中,我们主要使用向量表示方法。
向量的每个元素称为特征,该向量也因此称为特征向量。
图像、像素的定义:
这里还要提出,在本门课中的举例与习题中常用图像作为例子,因此要说一下图像的表示方法。
在计算机里分析的称为数字图像,它由排列整齐的二维网格组成,分为若干行与若干列,相当于一个二维数组,或称矩阵。
我们称每个元素为像素,例如处在第三行第四列的元素的灰度值为155,则可表示成I(3,4)=155。
在本门课中都是对向量进行分析的,因此在概念上要把图像也表示成向量,譬如将图像像素一列一列串起来。
实际上,只要记住向量的运算是建立在各个分量基础上的,例如:
,则
图像的运算也是按行列来进行,不要弄错行列。
此外,对于象语音信号这种随时间变化的信号,属于时域信号。
此时,元素之间的时间先后顺序很重要,因此可用向量的形式将它们排列起来。
说的严格一些,对语音信号进行采样,然后将在不同时刻采样值排列起来,组成向量。
1.3模式识别系统
前面说过研究模式识别的主要目的,是指如何用计算机进行模式识别,对样本进行分类。
执行模式识别的计算机系统称为模式识别系统。
设计人员按需要设计模式识别系统,而该系统被用来执行模式分类的具体任务。
一个典型的模式识别系统,一般由数据获取,预处理,特征提取与选择、分类决策及分类器设计五部分组成。
分类器设计在训练过程中完成,利用样本进行训练,确定分类器的具体参数。
而分类决策在识别过程中起作用,对待识别的样本进行分类决策。
下面将简单说明这几个环节。
为了说明,我们举一个汽车车牌识别的例子。
这个例子表示了一个汽车车牌识别的全过程。
成功的车牌识别系统有着非常广泛的应用前景,例如公路上的自动收费站,十字路口的违章车辆监视等等。
目前的车牌识别系统大都是按照以上的流程。
这个流程又可以在整体上划分为两大部分——车牌的提取和定位,以及字符识别部分。
下面,我们将针对每一个模块,具体说明车牌识别的过程。
这个系统从头到尾是一个单一的线形流程。
首先,从摄像头取得彩色的包含车牌的图像。
这是在一个收费站前拍摄的交费车辆的照片,在收费站的车牌识别系统中,车辆是静止的,因此不用进行针对运动模糊等的预处理。
牌定位模块的训练和识别过程也可以用上面的框图描述。
车牌定位模块的目的是从整幅图像中定位出车牌的精确位置。
主要利用的信息是车牌部分的纹理分布,主要利用的是水平和竖直两个方向上的边缘。
在车牌部分,边缘分布比较密集,可以利用这一点提取出候选的车牌区域,在图中用方框标出。
粗略定位的结果往往不是很准,我们还可以利用颜色的连续性信息对定位的结果进行修正。
之后输出的就是候选的车牌位置,这些位置中,只有一个是真正的车牌。
而究竟哪一个是对的,要到字符识别阶段才能有结果。
因此,字符识别部分的输入包括每一个候选车牌区域,而通过它们的输出评价,来把不合适的伪车牌区域去掉,只把最正确车牌的结果作为最终结果输出出来。
字符识别分两部分,其中字符分割要把车牌中的一个个字符逐一切分开,这样才能在下一步的识别中对每一个字符分别处理。
分割的方法就是利用灰度图像往水平方向的投影。
在有数字或字符的部分,这个投影值应该比较大,而在字符之间的间隙处,投影的累计值就几乎为零了。
利用这个特定,可以很好的将字符分割开来。
同时,我们还需要得到对这个区域是不是车牌区域作个评价,如果划分结果比较合理,划分出的每个字符的宽度都差不多,那么说明这个区域比较像车牌。
如果像(e)中左图那样字体太宽,说明是其它的字符。
最后一个模块是字符识别模块,字符识别的方法很多,神经元网络,PCA,特征提取及匹配等,模板匹配和特征提取是比较常用的方法。
其中模板匹配是把样本字符与输入的待识别字符作匹配,如果两个字符很像(在某种距离度量下距离很小),说明匹配成功,把这个模板的对应字符作为输出结果。
而特征提取的方法是对样本和待测图像都先提取一些明显的特征,例如对“5”和“9”考虑其右上角是否封口,这样作的好处是可以用维数较低的向量来描述图像,而且这些特征都是有代表性,可以用来区分不同样本的。
但是不足之处是特征需要手工设计,工作量较大。
PCA方法在一定程度上解决了这个问题。
它可以从大量样本中训练得到每一类的特点。
但是它也有不足之处,就是样本的对齐(align)问题,如果训练时没有对齐,对训练结果会有影响,而如果识别时没有对齐,也会产生错误的识别结果。
在学习下面的框图中各单元的功能时,联系这个例子,看看各对应哪一部分功能。
下面介绍模式识别系统各组成的功能。
1、信息获取
在现阶段计算机都只能处理某种形式的电信号,而待识别的样本大都是非电信息,例如癌细胞病理切片,语音信号,待识别文本,图像等,这就需要将这些以各种不同形式表现的信息通过传感器转换成电信号。
如用话筒将声音信号转换成电信号,表现出电压(电流)随时间变化的复杂波形。
景物信息在摄像机靶面成像并转换成二维的象素矩阵,每个像素(矩阵元素)的电信号与物体表面反射的光强或颜色信息呈现函数关系。
因此信号获取环节主要是由不同形式的传感器构成,它实现信息获取与信息在不同媒体之间的转换。
2、预处理
预处理主要是指去除所获取信息中的噪声,增强有用的信息,及一切必要的使信息纯化的处理过程。
预处理这个环节内容很广泛,与要解决的具体问题有关,例如,从图象中将汽车车牌的号码识别出来,就需要先将车牌从图像中找出来,再对车牌进行划分,将每个数字分别划分开。
做到这一步以后,才能对每个数字进行识别。
以上工作都应该在预处理阶段完成。
3、特征选择和提取
这个环节包含着丰富的内容,在不同场合有不同的含义。
一般说来它包括将所获取的原始量测数据转换成能反映事物本质,并将其最有效分类的特征表示。
这个环节的输入是原始的量测数据(经过必要的预处理),例如由声波变换成的电信号,表现为电压电流幅度随时间的变化,二维图像每个像素所具有的灰度值等。
这些数据包含着所需信息的原始形式,但它往往不适合于分类器直接使用。
特征提取模块将原始量测数据转换成有效方式表示的信息,从而使分类器能根据这些信息决定样本的类别。
前面说过待识别的样本及模式都是用特征进行描述的,识别与训练都是在特征空间中进行的。
而原始数据是由所使用的量测仪器或传感器获取的,这些数据组成的空间叫测量空间。
因此特征的选择与提取模块的功能是:
对所获取的信息实现从测量空间到特征空间的转换。
第四章将对此作进一步讨论。
特征选择和提取就是说选择什么样的方式与方法来描述事物,从而可以有效、牢靠地把事物正确地区分开。
我们先举一个数字识别的例子来说明特征选择的重要性。
印刷体数字大多通过扫描仪输入,或从图像中获取。
这样一来,一个数字往往用一个N×
M的数组表示。
如果N=5,M=7,则一个数字就用5×
7共35个网格是黑是白来表示。
如令是黑为“1”,是白为“0”,那么一个数字就可用35维的二进制向量表示。
这就是典型的特征向量表示法。
另一种方法则是将数字用笔划表示,也就是将它分成一横加上一斜杠表示。
这种表示方法属于结构表示法范畴。
这两种方法各有什么优缺点呢?
前种方法表示很简单,但它有些缺点:
这种表示与网格的尺寸有关,与字的笔划粗细有关,更主要的是字在网格中的不同位置与转向有关。
这个字在网格中略为偏一点,其特征向量表示就会有很大的不一样。
这就说明了这种表示的稳定性差。
另一种表示是对数字的结构表示,如能将一横一斜杠可靠方便地分析出来,这种方法没有前一种方法的缺点,但提取这种结构信息也不是一件容易方便的事。
由此可见,找到合适的特征描述对识别的可靠性,计算复杂度、有效性都是十分重要的。
4、分类决策
前面提到模式识别系统工作有两种方式,一种是训练方式,另一是分类决策方式。
所谓训练方式是指在已确定的特征空间中,对作为训练样本的量测数据进行特征选择与提取,得到它们在特征空间的分布,依据这些分布决定分类器的具体参数。
例如图1.2为一个二维特征空间两类物体的分布状况,其中x1与x2分别为两个特征坐标。
由于各类样本分布呈现出聚类状态,因此可以将该特征空间划分成由各类占据的子空间,确定相应的决策分界。
一般说来采用什么样式的分界由设计者决定,如上述二维特征空间中可用直线、折线或曲线作为类别的分界线。
分界线的类型可由设计者直接确定,也可通过训练过程产生,但是这些分界线的具体参数则利用训练样本经训练过程确定。
至于分类决策过程是指分类器在分界形式及其具体参数都确定后,对待分类样本进行分类决策的过程。
在图1.2所示的情况中,待识别样本按处于分界线左下方,或右上方分类。
分类决策是对事物辨识的最后一步,其主要方法是计算待识别事物的属性,分析它是否满足是某类事物的条件。
对于每个事物来说,由他的属性得到它的描述,表示成相应的特征向量,因此它在特征空间中表示成一个点,称为数据点。
一般来说,同一类事物之间属性应比较近似,而不同类事物之间的属性之间应差异较大。
这种现象表现在特征空间的分布中往往表现出同类事物的特征向量聚集在一起,聚集在一个相对集中的区域,而不同事物则分别占据不同的区域。
因此待识别的事物,如果它的特征向量出现在某一类事物经常出现或可能出现的区域内,该事物就被识别为该类事物。
这就是识别事物的基本方法。
因此在特征空间中哪个区域是某类事物典型所在区域需要用数学式子划定,这样一来,满足这种数学式子与否就成为分类决策的依据。
如何确定这些数学式子就是分类器设计的任务,而一旦这种数学式子确定后,分类决策的方法也就确定了。
以上是对一个典型的模式识别系统几个组成部分最简单与初步的说明。
由于模式识别的具体任务是千差万别的,而信息获取与预处理乃至特征选择和提取的具体内容与处理对象密切有关,是各种不同的学科研究与分析的重点,在本书中无法进行深入讨论。
因此我们如涉及这方面内容也只是作为举例说明用。
本课程将着重围绕模式识别的基本原理及分类器设计的基本问题进行讨论。
另外一点需指出的是,在许多应用领域中模式识别并不一定作为独立的环节存在,如图像处理中包含着许多模式识别的问题,模式识别的原理与基本方法贯穿在许多过程中。
但它并没有构成一个完整的独立系统。
常见的独立工作的模式识别系统有语音识别系统,文字识别系统等等。
在汽车车牌号码识别例子中我们也可以看到多个模式识别结合在一起的现象。
这个例子中包括了车牌区域的识别,车牌类型的识别以及车牌号码的识别,它们是一环接一环的,前一项识别也可看成是后一项识别的预处理。
每个识别过程都可用这个框图表示,但各自所用的具体方法是不同的。
1.4有关模式识别的若干问题
在系统地学习模式识别原理及基本理论等问题之前,还需讨论一些与模式识别有关的问题,以加深对模式识别的了解。
1 学习
2 模式的紧致性
3 相似性度量
1.学习
前面提到人们在日常生活中几乎时时刻刻在进行模式识别的活动,从小时候起就开始学习与增强这种能力。
如小孩学习认字、认识事物都有一个从不会到会的过程。
成人教小孩认字时,并不告诉“4”有什么特点,往往只是出示样本。
孩子很快能总结出“4”的概念,不论该字是大还是小,形体笔划有多大变化,都能正确辨认出来。
孩子的家长教孩子叫大人为爷爷、奶奶、伯伯、叔叔等,并没有告诉他们,什么样的人,具有什么特点的人应如何称呼,但孩子很快从所见到的爷爷的“样本”中学会该叫谁爷爷,很少有错误。
孩子年龄很小时根本无法说明老年人有什么形体特征,也还不会描述事物,但却已经能够从学习过程中掌握了很强的分辨事物的能力。
那么机器能做到这一点吗?
的确机器也有个学习过程,模式识别系统包括了训练这一环节与工作方式。
但是在模式识别系统中,尤其是传统的模式识别技术中,信息获取,预处理,特征提取与选择一般都是设计者安排好的,机器本身无法从训练中培养出选择特征的能力,而训练的实质也只是按设计者拟定的数学公式,把训练样本提供的数据作为自变量执行计算求解的过程。
一般说来人工神经元网络的学习能力比传统的模式识别方法要强。
但目前看来,在人类尚无法了解自身的智力活动过程的现阶段,人类还不具备设计有高度智力的机器的能力。
确定分类决策的具体数学公式是通过分类器设计这个过程确定的。
在模式识别学科中一般把这个过程称为训练与学习的过程。
这是因为分类的规则是依据训练样本提供信息的确定的,在分类器的设计阶段。
要使用一批训练样本,其中包括各种类别的样本,因此由这些样本可以大致勾画出各类事物在特征空间分布的规律性,从而为确定使用什么样的分类具体数学公式以及这些公式中的参数确定提供了信息。
这种数学式子及其参数的确定应该说是综合设计者的人为因素以及训练样本提供的信息共同决定的。
譬如在图1.3中两类训练样本的分布体现出近似圆形的分布。
因此如能把这两个圆形区域确定下来,将它们的边界用某种数学式子近似,那么落在某一个圆形内的样本就可以用这种数学式子来判断。
对于图1.3还可以看到,比较精确地表达不同类样本分布地聚集区不一定是必须的。
用一条直线(线性方程)也许可以达到同样的目的。
满足直线的方程是一个线性方程,写成
f(x1,x2)=ax1+bx2+c=0,
而不在该直线上的点则用f(x1,x2)是否大于零或小于零来分辨。
使用直线的好处是计算方便,对一个实际分类问题,快速计算、快速分类是十分重要的。
因此只要条件允许就要使用较简单的方法是一条基本原则。
一般来说,决定使用什么类型的分类函数往往是人为决定的。
但数学式子中的参数则往往通过学习来确定,这一点与人们学习新事物的方式很相似。
人们常常从错误中吸取教训,纠正对事物不正确的认识。
而分类器也有一种学习过程,如果发现当前采用的分类函数会造成分类错误,那么利用错误提供应如何纠正的信息,就可以使分类函数朝正确的方向前进,这就形成了一种迭代的过程,如果分类函数及其参数使出错的情况越来越少,就可以说是逐渐收敛,学习过程就收到了效果,设计也就可以结束。
在后续章节的学习中我们会更加明确,所谓模式识别中的学习与训练是从训练样本提供的数据中找出某种数学式子的最优解,这个最优解使分类器得到一组参数,按这种参数设计的分类器使人们设计的某种准则达到极值。
例如图1.3为两类别样本在