人工智能中知识获取技术.docx
《人工智能中知识获取技术.docx》由会员分享,可在线阅读,更多相关《人工智能中知识获取技术.docx(51页珍藏版)》请在冰豆网上搜索。
人工智能中知识获取技术
4.1知识获取的概念和途径
“知识获取”是人工智能和知识工程的基本技术之一,也是主要问题之一。
知识获取和知
识表示是知识推理的前提条件,通过知识表示,将所获取的知识,存储在知识库中,才能利用
知识进行推理,求解问题。
因此,知识获取是设计和建造各种人工智能和知识工程系统的关键
问题。
一、知识获取的基本概念
所谓“知识获取”,是指在人工智能和知识工程系统中,机器(计算机或智能机)如何获取
知识的问题。
有二种定义:
1.狭义知识获取
指人们通过系统设计、程序编制和人-机交互,使机器获取知识。
例如,知识工程师利用知
识表示技术,建立知识库,使专家系统获取知识。
也就是通过人工移植的方法,将人们的知识
存储到机器中去。
因此,狭义知识获取也可称为“人工知识获取”。
2.广义知识获取
除了人工知识获取之外,机器还可以自动或半自动地获取知识。
比如,在系统调试和运行
过程中,通过机器学习进行知识积累,或者,通过机器感知直接从外部环境获取知识,对知识
库进行增删、修改、扩充和更新。
因此,广义知识获取包括人工知识获取、自动和半自动知识
获取。
二、知识获取的主要途径
在人工智能或知识工程系统中,一般说来,机器(计算机或智能机)获取知识的方法和途
径,可分为三类:
1.人工移植
所谓“人工移植”,是依靠人工智能系统的设计师、知识工程师、程序编制人员、专家或用
户,通过系统设计、程序编制及人机交互或辅助工具,将人的知识移植到机器的知识库中,使
机器获取知识。
人工移植的方式可分为二种:
(1)静态移植。
在系统设计过程中,通过知识表示、程序编制、建立知识库,进行知识存
储、编排和管理,使系统获取所需的先验知识或静态知识。
故称“静态移植”或“设计移植”。
(2)动态移植。
在系统运行过程中,通过常规的人机交互方法,如“键盘-显示器”的输入/
输出交互方式,或辅助知识获取工具,如知识编辑器,利用知识同化和知识顺应技术,对机器
的知识库进行人工的增删、修改、扩充和更新,使系统获取所需的动态知识。
故称“动态移植”
或“运行移植”。
2.机器学习
所谓“机器学习”,是人工智能系统在运行过程中,机器通过学习,获取知识,进行知识积
累,对知识库进行增删、修改、扩充与更新。
机器学习的方式可分为二种:
(1)示教式学习。
在机器学习过程中,由人作为示教者或监督者,给出评价准则或判断标准,对系统的工作效果进行检验,选择或控制“训练集”,对学习过程进行指导和监督。
这种学习方式通常是离线的、非实时的学习,也可以在线、实时学习。
(2)自学式学习。
在机器学习过程中,不需要人作为示教者或监督者,而由系统本身的监督器实现监督功能,对学习过程进行监督,提供评价准则和判断标准,通过反馈进行工作效果检验,控制选例和训练。
这种学习方式通常是在线、实时的学习。
在上述二种学习方式中,机器可以采用各种学习方法,如强记式、指导式、示例式、类比式方法等。
(3)器感知
所谓“机器感知”,是人工智能系统在调试或运行过程中,通过机器视觉、机器听觉、机器触觉等途径,直接感知外部世界,输入自然信息,获取感性和理性知识。
机器感知主要有二种方式:
(1)机器视觉。
在系统调试或运行过程中,通过文字识别、图象识别和物景分析等机器视觉,直接从外部世界输入相应的文字、图象和物景的自然信息,获取感性知识,经过识别、分析和理解,获取有关的理性知识。
(2)机器听觉。
在系统调试或运行过程中,通过声音识别、语言识别和语言理解等机器听觉,直接从外部世界输入相应的声音、语言等自然信息,获取感性知识,经过识别、分析和理解,获取有关的理性知识。
在机器视觉、听觉中,都要用模式识别、自然语言理解等方法和技术。
§4.2机器学习
一、学习和学习系统的概念
1.“学习”的概念
“学习”是一个通俗的、广泛应用的概念,同时也是一个含义丰富、难以确切定义的术语。
不同的学科,不同的发展阶段,对“学习”的概念有不同的定义。
例如:
•在神经生理学中,巴甫洛夫把“学习”称为“条件反射的形成过程”。
•在控制论中,维纳把“学习”称为“系统自我完善的过程”。
•在人工智能中,西蒙把“学习”称为“系统积累经验,改善性能的过程”。
•在知识工程中,认为“学习”是“知识结构的改进,知识的获得、积累和修正”。
这里包括两方面的知识:
•显示知识—可用语言、文字或符号表示的知识,如书本知识。
•隐式知识一一不便用语言、文字或符号表示的知识,如经验技能。
2.“学习系统”的概念
由于学习的概念不同,相应的“学习系统”(也叫“学习机器”)的概念也有所不同。
例如:
•能够从某种过程或环境中的未知特征获取信息,并作为经验用于未来的估计、分类、决策或控制,以改进其性能的系统,称为“学习系统”。
•若系统在其环境发生变化后的一段时间(T)内,相对于性能函数(P)的响应是令人满意的,
则可称为“学习系统”。
•能利用与环境相互作用时所获得的信息,在未来的与环境的相互作用中,改进其性能的系统,称为“学习系统”。
•在与环境的相互作用中,不断使知识库完善化的系统,称为“学习系统”。
•在系统运行过程中,能不断地从外界环境中获取知识,改善系统性能的系统,称为“学习系统”。
上述学习系统的定义大同小异,其中,学习系统应具备的二点共性是:
•获取知识(信息);
•改善系统性能。
二、机器学习系统的类型
机器学习系统的类型很多,可按下列几个方面进行分类:
1.学习能力
机器学习能力大小的主要标志,是对人的监督和示教作用的依赖程度。
据此可分为:
(1)示教式学习系统
在学习过程中,需要人作为教师,进行示教、监督和训练,学习结束后才能投入工作。
这
也称为“离线”学习系统。
(2)自学式学习系统
不需要人进行示教、监督和训练,机器在运行过程中,自动获取知识,改善性能。
这也称
为“在线”学习系统。
2.学习方法
机器学习方法,是指获取知识和改进性能的方式。
据此可分为:
(1)强记学习系统
机器在学习过程中,通过反复训练,利用奖惩规则或评价标准,强行记忆所获得的知识。
(2)指导学习系统
在学习过程中,由人给出指导性的建议,机器通过知识推理,获得改善性能的具体行动规
则,具有从一般到特殊的演绎推理功能。
(3)示例学习系统
系统从训练集的许多事例或样本中,获取关于事物的特性和规律的知识,以提高其识别能
力和性能,具有概括(从特殊到一般)和归纳推理功能。
(4)类比学习系统
系统通过类比方法,进行联想推理,获得类比关系和转换规则的知识,提高对其他类似事
物的识别能力。
3.学习内容
按所学习的知识的内容,可分为:
(1)概念学习系统
学习内容是关于事物的概念、状态、性质等叙述性知识。
其中包括单概念学习,如判断事件的真假、是否等;多概念学习,如疾病诊断、质谱分析等。
(2)过程学习系统
学习内容是关于事物状态变化的过程性知识,如问题求解的步骤,机器人行动规则,语言的句法分析,模式的文法推断等。
4.知识表本方式
根据机器学习系统中知识表示的方式,可分为:
(1)数值学习系统
用数值表示知识,如概率值、权系数等,又可分为:
•统计学习系统,如贝叶斯学习分类器。
•参数学习系统,如权系数修正器。
(2)符号学习系统
用符号表示知识,如产生式规则、语义网络、“与/或”树等,又可分为:
•产生式学习系统,用产生式规则表示知识。
•网络式学习系统,用语义网络表示知识。
三、机器学习系统的原理结构
机器学习系统是根据人工智能的学习原理和方法,应用知识表示、知识存储、知识推理等技术,设计和构成的,具有知识获取功能,并能逐步改善其性能的系统,可称之为“人工智能学习系统”或“智能学习系统”。
机器学习系统可以采取示教式或自学式,进行离线或在线学习。
在学习过程中,可采用强记、指导、示例、类比等各种学习方法,进行奖惩式、演绎式、归纳式、联想式学习。
根据所采用的学习方法,设计系统中的学习环节。
为了能够获取知识,改善性能,在机器学习系统中,应拥有知识库,并且要求知识库具有增删、修改、扩充和更新的功能。
在示教式学习系统中,还需要有相应的人机接口,以便机器向示教者学习,获取知识信息。
示教式学习系统通常是离线学习、非实时学习,但也可以在线学习、实时学习。
自学式学
习系统一般是在线学习、实时学习。
所谓“在线”,是指学习系统与其工作对象或环境是直接联机的;而“离线”是不联机的。
所谓“实时”,是指学习系统与其工作对象或环境的时间域是相同的,即实际运行时间;而“非实时”,其时间域是不同的。
机器学习系统,或智能学习系统的一般结构图4-1所示。
当监督环节为示教人时,图4-1为示教式学习系统;当监督环节为监督器时,图4-1为自
学式学习系统。
当环境与系统不直接联机时,图4-1表示离线式学习系统;当环境与系统直接联机时,图
环境—
4-1表示在线式学习系统。
4-1智能学习系统的结构
四、机器学习系统的基本功能
图4-1所示的智能学习系统,各部分功能如下:
1.知识库
用于存储(记忆)、积累知识,具有知识增删、修改、扩充、更新功能的知识库及其管理系
统。
根据所存储知识的记忆稳定度,可分为:
(1)长期记忆知识
长期记忆知识是稳定不变的,它是学习系统必须具备的先验知识背景,在学习过程中不发
生变化的基本知识,如事物的基本概念和定义、定律和公理,博弈的基本规则等。
(2)中期记忆知识
指通过学习可以改变的,关于环境事物的各种具体知识,即知识库中通过学习而增删、修
改的那部分知识。
(3)短期记忆知识
指反映环境变化的信息和数据,学习过程的中间结果,以及知识调用的条件等。
当处于“在
线”学习过程中,短期记忆知识是经常改变的,一般存放于“总体数据库”或“黑板”中。
2.学习环节
它是学习系统的核心环节,其作用如下:
(1)采集环境信息
通过选例环节或直接采集有关环境变化的信息。
(2)接受监督指导
接受来自监督环节的示教、指导信息或评价标准。
(3)进行学习推理
利用所采集的环境信息,根据监督指导,通过强记、指导、示例、类比等学习方法,进行
学习过程的知识推理,获得有关问题的解答和结论。
(4)修改知识库
将学习推理所获得的结果,输入知识库,对原有知识进行增删、修改。
3.工作环节
利用知识库中的知识,进行识别、论证、决策、判定,采取相应的行动,完成工作任务的
执行环节。
如果工作环节的行动结果,直接引起环境的变化,如机器人行动、生产过程控制、机器博
弈等,那么就形成了“在线”学习系统。
4.监督环节
在示教式学习系统中,监督环节是人,即示教者;在自学式学习系统中,监督环节是监督
器,即评价准则或检验标准。
监督环节有以下几个作用:
(1)工作效果评价
接受来自工作环节的反馈信息,对系统的工作效果进行评价和检验。
(2)整定评价准则
接受来自环境变化的信息,整定和修订评价准则和检验标准。
(3)监督学习环节
根据评价和检验结果,对学习环节进行示教、训练或指导。
(4)控制选例环节
根据环境变化信息及工作效果的反馈,控制选例环节,选取其他事例或样本。
(5)例环节
其作用是从环境中,选取有典型意义的事例或样本,作为系统的训练集或学习对象,以便提高学习效率,加速学习过程。
选例环节可以由人或机器来实现。
(6)境
指系统获取知识和信息的来源,工作的对象和人物等。
例如,医疗专家系统的病员、病历档案、医生、诊断书等;模式识别系统的文字、图象、物景;博弈系统的对手、棋局;智能控制系统的被控对象和生产过程等。
§4.3械学习
机械学习也叫死记硬背学习。
一、机械学习的模式
机械学习是最简单的机器学习方法。
机械学习就是记忆,即把新的知识存储起来,供需要时检索调用,而不需要计算和推理。
机械学习是最基本的学习过程。
任何学习系统都必须记住其获取的知识。
在机械学习系统中,知识的获取是以较为稳定和直接的方式进行的,不需要系统进行过多的加工。
而对于其它学习系统,需要对各种建议和训练例子等信息进行加工处理后才能存储起来。
当机械学习系统的执行部分解决好问题之后,系统就记住该问题及其解。
我们可把学习系
统的执行部分抽象地看成某个函数,该函数在得到自变量输入值(Xi,X2,…,Xn)之后,计
算并输出函数值(丫1,丫2,…,Yp)。
机械学习在存储器中简单地记忆存储对((Xi,X2,…,Xn),(丫1,丫2,…,Yp))。
当需要f(Xi,X2,…,Xn)时,执行部分就从存储器中把(Yi,丫2,…,Yp)简单地检索出来而不是重新计算它。
这种简单的学习模式如下:
f存贮
(Xi,X2,,Xn)——(Yi,Y2,,Yp)((Xi,X2,,Xn),(Yi,Y2,,Yp))
例如,一个决定受损汽车修理费用的汽车保险程序。
这个程序的输入是被损坏的汽车的描
述,包括制造厂家、生产年代、汽车的种类以及记录汽车被损坏部位和损坏程度的一个表,程序的输出是保险公司应付的修理费用。
这个系统是个机械记忆系统。
为了估算损坏汽车的修理费用,程序系统必须在存储器中查找同一厂家、同一生产年代、损坏的部位和程度相同的汽车,
然后把对应的费用提交给用户。
如果系统没有发现这样的汽车,则它使用保险公司公布的赔偿
规则估算出一个修理费用,然后把厂家、生产日期和损坏情况等特征与估算出的费用保存起来,
以便将来查找使用。
二、机械学习的主要问题
1.存储组织信息
显然,只有当检索一个项目的时间比重新计算一个项目的时间短时,机械学习才有意义,
检索的越快,其意义也就越大。
因此,采用适当的存储方式,使检索速度尽可能地快,是机械
学习中的重要问题。
在数据结构与数据库领域,为提高检索速度,人们研究了许多卓有成效的
数据存储方式,如索引、排序、杂凑等等,在机械学习中我们可以充分利用这些成果来实现我
们的要求。
2.环境的稳定性与存储信息的适用性
在急剧变化的环境下机械学习策略是不适用的。
作为机械学习基础的一个重要假定是在某
一时刻存储的信息必须适用于后来的情况。
然而如果信息变换得特别频繁,这个假定就被破坏
了。
因此机械学习系统必须保证所保存的信息适应于外界环境变化的需要,这也就是所谓的信
息适用性问题。
解决问题的办法有两种:
(1)密切监视外界环境的变化,不断地更新所保存的信息。
(2)核对,即是说在检索某一信息的时候核对一下外界环境的有关条件,看看所检索的信
息是否仍旧适用。
如不适用,需要经过适当的变换。
3.存储与计算之间的权衡
因为机械学习的根本目的是改进系统的执行能力,因此对于机械学习来说很重要的一点是
不能降低系统的效率。
比方说,如果检索一个数据比重新计算一个数据所花的时间还要多,那
么机械学习就失去了意义。
解决问题方法有两种:
(1)估算一下存储信息所要花费的存储空间以及检索信息时所花费的时间,然后将其代价
与重新计算所花的代价比较,再决定存储信息是否有利。
(2)把信息先存储起来,但为了保证有足够的检索速度,限制了存储信息的量,系统只保
留那些最常使用的信息,“忘记”那些不常使用的信息。
这种方法也叫“选择忘却”技术。
4.44.4基于事例的学习
当无法建立好的模型时,通过记录事例进行学习是一种可取的方法。
采用基于事例的学习方法时,首先,应用相容启发方法,把某个预先观察过的事物的特性
赋给另一个从未见过的新事物;其次,学会如何快速找到特征空间内的最近邻物体。
、相容启发使事例支持特性
现有八块积木,每块积木的颜色、宽度和高度均已知,如图4-2所示。
假定有一块新的积
木(记为U),其宽度和高度为1X4cm,而颜色尚不知道。
若要猜测其颜色,就必须猜想:
这种颜色应与其它方面(如宽度和高度)与该积木最为相似的积木一样。
在这种猜想中,将用到相容启发方法。
相容启发定义:
无论何时要猜测某事物的特性,除了提供一套参考事例外不知道其它情况;通过测量其它事物的已知特性,找到最相似的事例,该事例的特性是已知的。
作为猜测:
所求未知特性是与最相似事物的已知特性一样。
Yellow
Orange
图4-2八积木事例集图4-3积木颜色的特征空间
二、最近邻物体的寻求
寻求最近邻物体的最直接方法是:
先计算未知物体与事例集中所有物体的距离,然后求取
这些距离的最小值。
若事例集中已有n个物体,则要计算n个距离,比较n-1个距离。
当n较
小(如n=10)时,这种直接方法较好用;但是,当n很大(如n为一百万或十亿)时,这种方法就不那么好用了。
寻求最近邻物体的较快方法有两种:
一种是串行过程,另一种是并行过程。
1.快速串行过程求得最近邻物体
该方法采用一种特别的决策树。
决策树大体上是一些测试的排列,它规定了分析中每一步最合适的测试。
定义:
决策树是一种表示,是一种语义树。
树上,
(1)每个节点与一个可能回答集合有关;
(2)每个非终叶节点与某个测试有关,该测试把它的可能回答集合分解为对应于不同测试结果的一些子集;
(3)每个分支把一个具体的测试结果子集传给另一个节点。
这种方法的计算工作量与log2n成正比,而不是与n成正比。
要利用决策树思想处理积木辨识问题,必须在计算最近邻物体之前对事例进行分组,如图每组含有相同的积木数。
其中一组,所有积木的高度〉5cm2cm(称为“矮积木”)。
“高积木”分为两组,其中一组的宽度〉5cm(称为“宽高
积木”),另一组宽度w2cm(称为“窄高积木”);“矮积木”也分为两组,其中一组的宽度〉4cm
最后,把上述4组进一步分成8组,每组正好只有一块积木。
Purple
Orange
2-JRed,Blue
Green
图4-4积木事例分组
分组过程如图4-5所示。
竟产>5cm।同良)6cm(同的见同根木)
Yellow
f高度>5cmj
(宽高积木)L高度05cm(矮的宽高积木)一
Purple
(图积木)
竟度&2cm।同良)6cm(同的下同机木)
Red
(乍同根木)L高度05cm(矮的窄高积木)—
Orange
宽度?
4cm1另1度》2cm(图的宽矮积木)
Blue
高度02cm
(宽矮积木)।高度01cm(矮的宽矮积木)一
Green
(矮积木)
宽度02cm1图度》2cm(局的窄矮积木)
Red
(窄矮积木)।高度0〔cm(矮的窄矮积木)一
Violet
图4-5积木事例分组过程
要确定积木U的最近邻积木,首先注意到U处于最矮的高积木和最高的矮积木间的中等高
度,且积木U的高度大于3.5cm。
根据这一观察可以得出结论:
积木U很可能靠近某块高积木
而不是矮积木。
因此,可以暂时舍弃那些矮积木。
为什么说是暂时舍弃矮积木?
因为最高的矮积木高2cm,它与积木U的距离不小于2cm,
即高度差为2cm。
也就是说,未知积木U与下面一组任何积木的距离不可能比2cm更近。
如果
积木U与高积木的距离小于或等于2cm,那么暂时舍弃矮积木的决策将成为永久的决策。
如果积木U与高积木的距离大于2cm,那么最终还得考虑矮积木。
接着,考虑高积木;它们也分成两组。
因为积木U的宽度小于3.5cm,所以它很可能靠近
某块窄的高积木。
因此,可以暂时舍弃宽的高积木。
同样,因为宽的高积木与积木U的距离不小于4cm,如果积木U与窄的高积木的距离是小于或等于4cm,那么暂时舍弃宽的高积木的决策将成为永久的决策,否则还得考虑宽的高积木。
下一步是把积木U与矮的窄高积木放在一起,这种积木只有一块,即桔黄色积木。
同样,积木U与窄的红色高积木的高度相差2cm,如果积木U与桔黄色积木的距离等于或小于2cm,
那么就无需计算积木U至窄的红色高积木的距离。
至此可以知道,只要前述各决策被证明是合理的,最靠近积木U的积木就是桔黄色积木。
积木U与桔黄色积木的距离是1.41cm。
因为1.41cm小于2cm,说明舍弃窄的红色高积木是合理的;1.41cm也小于4cm,说明舍弃宽的高积木也是合理的;1.41cm又小于2cm,说明舍弃所
有矮积木是合理的;即各项决策都是合理的。
寻找最靠近的积木实际上是个跟随决策树路径的问题,该树反映了物体的分组方法。
不管未知积木的宽度与高度,只需3个单轴比较就能猜到本例中的最近邻积木,如图4-6所示决策
树说明。
一旦计算出至被猜测最近邻积木的距离,那么要证实导致猜测的决策的有效性,只需再进行3个比较就能够知道它是否是正确的。
如果运气不佳,猜测失误,再回头对前面被舍弃的积木组进行决策求解。
RedGreenBlueOrangeRedPurpleYellow
图4-6辨识新积木最近邻物的决策树
一般说来,具有两个分支系数和深度为d的决策树含有2d终叶。
因此,如果要辨识n个物体,那么d必须大得足以保证2d>n。
对两边取对数后可知,所需比较次数(对应于树的深度d)为log2n。
如果有8个物体,比较次数为log2(23)=3,而不是(8-1)=7次,那么节省并不显著。
不过,如果有10亿个物体,那么比较次数为log2(109)定30,而不是(109-1)=10亿次,比较次数的节省就极其显著。
2.并行硬件更快求得最近邻物体
如果有大规模并行计算机,它包含许多处理机来执行各自的工作任务;那么就不需要进行前述设想推理搜索。
每个距离的测量能够并行地进行。
当然,所得全部结果都需要进行比较,以便求得与未知物体得距离最小的事例。
进行此类比较的一种方法需要有近邻处理机来比较它们的结果。
然后,比较每双处理机的最小距离与某近邻双处理机的最小距离。
继续这种方法,在经过10g2n步之后,最终将得到全局最小距离,其中n为被比较的距离数。
4.5基于概念的学习
基于概念的学习是归纳学习的一种。
归纳学习是研究最广的一种符号学习方法,它表示从例子设想出假设的过程。
在进行归纳学习时,学习者从所提供的事实或观察到的假设进行推理,获得某个概念。
归纳推理是一个从部分到全体、从特殊到一般的推理过程。
从应用角度看,归纳学习可分为概念学习、概念聚集和启发学习三种。
对概念学习的研究有两种不同的观点:
(1)基于工程方法的概念学习,它从可能的学习机理出发(不管这些机理是否存在于生命组织内),试图试验并确定概念学习的工程方法;
(2)基于认知建模的概念学习,极力开发出人类概念学习的计算理论。
本节仅从工程角度介绍基于概念的学习。
概念学习的首要任务在于构造类型定义。
因此,我们首先讨论类型定义,然后研究分类程序。
一、类型定义
就某一具体输入而言,分类就是赋给它所属类的名称。
分类是许多问题求解的重要组成部分。
直接的识别问题是它的最简形式,如提问:
“这是什
么字母?
”但分类常常嵌在另一操作之中。
如下述产生式规则的一个问题求解系统:
如果:
当前目标是从A地到B地,且有一堵墙将两地分开。
那么:
找墙中的门并穿过它。
为能成功地利用此规则,系统的匹配程序须能辨识哪一物体是墙。
若不能辨识,规则便无法调用。
接着系统还须能认识门。
在进行分类前,必须先定义好类型。
有多种定义方法,其中包括统计法和结构法。
1.统计法
抽出一组与问题领域有关的特征,用这些特征的加权和来定义每一类型。
形式如下: