自然语言处理Natural-Language-Processing(NL演示课件.ppt.ppt

资源描述

自然语言处理Natural-Language-Processing(NL演示课件.ppt.ppt

《自然语言处理Natural-Language-Processing(NL演示课件.ppt.ppt》由会员分享，可在线阅读，更多相关《自然语言处理Natural-Language-Processing(NL演示课件.ppt.ppt（115页珍藏版）》请在冰豆网上搜索。

自然语言处理Natural-Language-Processing(NL演示课件.ppt.ppt

自然语言处理NaturalLanguageProcessing（NLP）,陈家骏，戴新宇,精选课件,主要内容

（1）,自然语言处理概述什么是自然语言处理自然语言处理技术的应用自然语言处理的基本策略和实现方法自然语言处理的难点自然语言处理所涉及的学科（http:

/,基于规则的自然语言处理方法（理性方法，传统方法）基于词典和规则的形态还原（英语）、词性标注以及分词（汉语、日语）基于CFG（上下文无关文法）和扩充的CFG（复杂特征集、合一运算）的句法表示及其分析技术基于逻辑形式和格语法的句义分析基于规则的机器翻译（http:

/,主要内容

（2）,基于语料库的自然语言处理方法（经验方法）语言模型（N元文法）分词、词性标注（序列化标注模型）句法分析（概率上下文无关模型）文本分类（朴素贝叶斯模型、最大熵模型）机器翻译（IBMModel等）.（基于神经网络的深度学习方法）,主要内容（3）,所需的前导知识,编译技术概率与统计,参考书籍,宗成庆，统计自然语言处理，清华大学出版社，2008刘群等译，自然语言理解（第二版），电子工业出版社，2005苑春法等译，统计自然语言处理基础，电子工业出版社，2005冯志伟等译，自然语言处理综论，电子工业出版社，2005黄昌宁等，语料库语言学，商务印书馆，2002冯志伟，计算语言学基础，商务印书馆，2001余士文，计算语言学概论，商务印书馆，2003姚天顺，自然语言理解一种让机器懂得人类语言的研究（第2版），清华大学出版社，2002赵铁军等，机器翻译原理，哈尔滨工业大学出版社，2000宗成庆等译，统计机器翻译，电子工业出版社，2012PeterF.Brown,etal.,AStatisticalApproachtoMT,ComputationalLinguistics,1990,16

（2）,课程考核,Projects提交报告（说明基本做法）和源程序及可运行的程序期末笔试,自然语言处理概述,什么是自然语言处理,充分利用信息将会给人们带来巨大的收益，而大量的信息以自然语言（英语、汉语等）形式存在。

如何有效地获取和利用以自然语言形式出现的信息？

自然语言处理（NaturalLanguageProcessing，简称NLP）是指用计算机对语言信息进行处理的方法和技术。

与NLP相近的两个研究领域：

自然语言理解（NaturalLanguageUnderstanding,NLU）：

强调对语言含义和意图的深层次解释计算语言学（ComputationalLinguistics,CL）：

强调可计算的语言理论,NLP技术的应用,机器翻译自动摘要文本分类与信息过滤信息检索信息抽取与文本挖掘情感分析自动问答.,机器翻译（MachineTranslation）,机器翻译（MachineTranslation，简称MT）是指利用计算机实现自然语言（英语、汉语等）之间的自动翻译。

是最早的计算机应用之一分为：

文本机器翻译和语音机器翻译机器辅助翻译（MachineAidedTranslation或ComputerAidedTranslation，简称MAT或CAT）翻译记忆体（TranslationMemory，简称TM）双语对照的文本编辑.,自动摘要（TextSummarization）,利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简洁、连贯的短文。

指标：

压缩比、.,文本分类（TextClassification）,将一篇文档归于预先给定的一个类别集合中的某一类或某几类。

可用于图书馆的图书分类信息过滤.,信息检索（InformationRetrieval，IR）,主题相关的文本获取。

基于关键词，从某文档集合中检索出相关的文档。

关键技术：

倒排索引、.google、百度、.,信息抽取（InformationExtraction，IE）,主题相关的信息获取。

基于某个主题模板，从非结构化或半结构化的自然语言文本中提取出相关的结构化信息。

对机器翻译、自动问答、数据挖掘（文本挖掘）等提供支持。

新华社北京月日电（记者李术峰）:

中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。

会议研究通过了贯彻落实“两会”精神的有关决定，审议通过了中国农工民主党中央年工作要点（草案），并任命了中央副秘书长。

农工民主党中央主席蒋正华主持了会议，他说，农工民主党有多名党员作为代表和委员参加了今年的“两会”，各位党员要认真履行代表和委员的职责，开好会，在年的工作中认真贯彻“两会”精神，加强农工民主党的自身建设，推动事业进一步发展，为建设有中国特色社会主义事业作出新的贡献。

会前，农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。

信息抽取实例:

会议报道（人民日报1998-03-09）,信息抽取的结果,情感分析（SentimentAnalysis或OpinionAnalysis）,分析文章（评论）对某个对象（社会热点事件、产品或者服务）的态度（正面还是负面）。

政府舆情分析：

热点事件发现、预警企业市场决策：

产品意见调查、产品推荐消费者购买决策.,自动问答（QuestionAnswering，QA）,针对用户提出的问题，给出具体的答案。

Apple的Siri、IBM的Watson机器人、百度的“知道”、,自然语言处理的主要任务（工作）,语言分析：

分析语言表达的结构和含义词法分析：

形态还原、词性标注、命名实体识别、分词（汉语、日语等）等句法分析：

组块分析、结构分析、依存分析语义分析：

词义、句义（逻辑、格关系、.）、篇章（上下文）（指代、实体关系）语言生成：

从某种内部表示生成语言表达多语言处理（机器翻译、跨语言检索）：

语言之间的对应、转换不同的应用对上述任务有不同的要求。

自然语言的分类（基于形态结构）,分析型语言词形变化很少没有表示词的语法功能的附加成分，由词序和虚词表示词之间的语法关系汉语、藏语等黏着型语言有词形变化词的语法意义（功能）由附加成分表达日语、芬兰语等屈折型语言有词形变化词的语法意义由词的形态变化来表示英语、德语、法语等另外，还可以按SVO型（主动宾）、VSO型（动主宾）和SOV型（主宾动）分类,自然语言处理的实现方法,基于规则的理性方法（Rationalistapproach）基于以规则形式表达的语言知识（词、句法、语义以及转换、生成）进行推理。

强调人对语言知识的理性整理。

受Chomsky主张的人具有先天语言能力观点的影响，主宰19601985基于语料库的经验方法（Empiricistapproach）以大规模语料库（单语和双语）为语言知识基础。

利用统计学习和基于神经网络的深度学习方法自动获取和运用隐含在语料库中的知识。

学习到的知识体现为一系列模型参数。

混合方法理性方法的优、缺点相应的语言学理论基础好语言知识描述精确处理效率高知识获取困难（高级劳动）系统鲁棒性（适应性）差：

不完备的规则系统将导致推理的失败知识扩充困难，很难保证规则之间的一致性经验方法的优、缺点知识获取容易（低级劳动）系统鲁棒性好：

概率大的作为结果知识扩充容易、一致性容易维护相应的语言学理论基础差缺乏对语言学知识的深入描述和利用，过于机械处理效率低利用各家之长，相互融合,自然语言处理的难点,歧义处理有限的词汇和规则表达复杂、多样的对象语言知识的表示、获取和运用成语和惯用型的处理对语言的灵活性和动态性的处理灵活性：

同一个意图的不同表达，甚至包含错误的语法等动态性：

语言在不断的变化，如：

新词等上下文和世界知识（常识，语言无关）的利用和处理,汉语处理的难点,缺乏计算语言学的句法/语义理论，大都借用基于西方语言的句法/语义理论词法分析分词词性标注难句法分析主动词识别难词法分类与句法功能对应差语义分析句法结构与句义对应差时体态确定难（汉语无形态变化）资源（语料库）缺乏,自然语言处理所涉及的学科,计算语言学：

各种语法、语义理论计算机科学（包括人工智能、机器学习）数学：

逻辑、概率与统计、信息论等哲学（认知学）心理学.,基于规则的自然语言处理方法（理性方法，传统方法）,概述,强调对语言知识的理性整理（知识工程）受计算语言学理论指导基于规则的知识表示和推导（符号计算）语言处理规则（数据）与程序分离，程序体现为规则语言的解释器！

词法分析,形态还原（针对英语、德语、法语等）把句子中的词还原成基本词形。

词性标注为句子中的词标上预定义类别集合（标注集）中的类。

命名实体识别人名地名机构名分词（针对汉语、日语等）识别出句子中的词。

形态还原（英语）,把句子中的词还原成原形，作为词的其它信息（词典、个性规则）的索引。

构词特点屈折变化：

词尾和词形变化，词性不变。

如：

study,studied,studied,studyingspeak,spoke,spoken,speaking派生变化：

加前缀和后缀，词性发生变化。

如：

friend,friendly,friendship,.复合变化：

多个单词以某种方式组合成一个词。

还原规则通用规则：

变化有规律个性规则：

变化无规律,形态还原规则举例,英语“规则动词”还原*s-*（SINGULAR3）*es-*（SINGULAR3）*ies-*y（SINGULAR3）*ing-*（VING）*ing-*e（VING）*ying-*ie（VING）*?

ing-*?

（VING）*ed-*（PAST）（VEN）*ed-*e（PAST）（VEN）*ied-*y（PAST）（VEN）*?

ed-*?

（PAST）（VEN）,英语不规则动词还原went-go（PAST）gone-go（VEN）sat-sit（PAST）（VEN）,形态还原算法,输入一个单词如果词典里有该词，输出该词及其属性，转4，否则，转3如果有该词的还原规则，并且，词典里有还原后的词，则输出还原后的词及其属性，转4，否则，调用如果输入中还有单词，转

（1），否则，结束。

Proj.1实现一个英语单词还原工具。

（词典：

http:

/,词性标注,为句子中的词标上预定义类别集合（标注集）中的类（词性），为后续的句法/语义分析提供必要的信息。

标注体系的确定标注方法,词性标注体系,词的分类按形态和句法功能（句法相关性）按表达的意思（语义相关性）兼顾上述二者,英语词的分类,开放类（openclass）Nouns句法上：

可作物主、可有限定词、有复数形式语义上：

人名、地名和物名Verbs句法上：

作谓语、有几种词形变化语义上：

动作、过程（一系列动作）Adjectives句法上：

修饰Nouns等语义上：

性质Adverbs句法上：

修饰Verbs等语义上：

方向、程度、方式、时间,封闭类（closedclass，functionwords）DeterminersPronounsPrepositionsConjunctionsAuxiliaryverbsParticles（if、not、.）Numerals,为什么要分类？

分类带来的问题？

兼类词一个词具有两个或者两个以上的词性英文的Brown语料库中，10.4%的词是兼类词。

例如：

ThebackdoorOnmybackPromisetobackthebill汉语兼类词，例如：

把门锁上，买了一把锁他研究.，研究工作汉语词的兼类更多？

与所采用的分类体系是否有关？

词性标注方法,规则方法词典和规则提供候选词性消歧规则进行消歧统计方法选择最可能的词性训练用语料库（已标注词性）基于转换学习的方法统计学习得到规则用规则方法进行词性标注,汉语分词（切分）,词是语言中最小的能独立运用的单位，也是语言信息处理的基本单位。

分词是指根据某个分词规范，把一个“字”串划分成“词”串。

难以确定何谓汉语的“词”单字词与语素的界定：

猪肉、牛肉词与短语（词组）的界定：

黑板、黑布信息处理用现代汉语分词规范：

GB-13715（1992）具体应用系统可根据各自的需求制定规范分词带来的问题丢失信息、错误的分词、不同的分词规范,切分歧义及歧义字段的种类,交集型歧义字段ABC切分成AB/C或A/BC如：

“和平等”“独立/自主/和/平等/独立/的/原则”“讨论/战争/与/和平/等/问题”组合型歧义字段AB切分成AB或A/B如：

“马上”“他/骑/在/马/上”“马上/过来”混合型歧义由交集型歧义和组合型歧义嵌套与交叉而成如：

“得到达”（交集型、组合型）“我/今晚/得/到达/南京”“我/得到/达克宁/了”“我/得/到/达克宁/公司/去”,南京市长江大桥.,南京市长江二桥.,伪歧义与真歧义伪歧义字段指在任何情况下只有一种切分“挨批评”只有一种切分根据歧义字段本身就能消歧真歧义字段指在不同的情况下有多种切分“从小学”可以有多种切分：

“从小/学”，如：

“从小/学/电脑”（“从小”是切分成“从小”还是“从/小”要根据分词规范！

）“从/小学”，如：

“他/从/小学/毕业/后”根据歧义字段的上下文来消歧,分词方法,一般通过分词词典和分词规则库进行分词。

主要方法有：

正向最大匹配（FMM）或逆向最大匹配（RMM）从左至右（FMM）或从右至左（RMM），取最长的词“幼儿园地节目”或“幼儿园地节目”双向最大匹配分别采用FMM和RMM进行分词如果结果一致，则认为成功；否则，采用消歧规则进行消歧（交集型歧义）：

正向最大、逆向最小匹配发现组合型歧义逐词遍历匹配在全句中取最长的词，去掉之，对剩下字符串重复该过程设立切分标记收集词首字和词尾字，把句子分成较小单位，再用某些方法切分全切分获得所有可能的切分，选择最大可能的切分,基于规则的歧义字段消歧方法,利用歧义字串、前驱字串和后继字串的句法、语义和语用信息：

句法信息“阵风”：

根据前面是否有数词来消歧。

“一/阵/风/吹/过/来”、“今天/有/阵风”语义信息“了解”：

“他/学会/了/解/数学/难题”（“难题”一般是“解”而不是“了解”，另外，还有“学会”）语用信息“拍卖”：

“乒乓球拍卖完了”，要根据场景（上下文）来确定规则的粒度基于具体的词（个性规则）基于词类、词义（共性规则）Proj.2实现一个基于词典与规则的汉语自动分词系统。

（词典：

http:

/,句法分析（Parsing）,确定句子的组成（短语、短语或者词之间的关系）。

句法分析任务的类型组块分析（浅层句法分析、部分句法分析）：

基本短语（非递归的核心成分）识别组成分分析（结构分析，完全句法分析）短语如何构成句子依存分析词之间的依赖关系,Johnatethecat的组成分分析,S,NP,VP,NAME,John,V,NP,ate,ART,N,the,cat,Johnatethecat的依存分析,Johnatethecat,sub,obj,mod,句法分析-组成分分析,句法分析的目的判断句子的合法性（句子识别）确定句子的结构（句子中单词相互关联的方式）基于上下文无关语法（CFG）的表示CFG能描述大部分的自然语言结构可以构造高效的基于CFG的句法分析器通常采用树形结构来表示句法分析的结果,优秀语法的特征,通用性能正确分析的句子的范围选择性能判断出错误句子的范围可理解性自身的简易程度*鲁棒性对不合法句子的容忍度（通用性）：

Heloveher.通用性与选择性矛盾的处置，如：

忽略主谓一致性检查将导致无法区分下面句子的不同含义（歧义）Flyingplanesaredangerous.Flyingplanesisdangerous.,一个简单的基于CFG的英语文法,1.S-NPVP2.VP-VNP3.NP-NAME4.NP-ARTN5.NAME-John6.V-ate7.ART-the8.N-cat9.产生式59属于词法规则，一般由词典、词形还原以及词性标注算法来描述。

产生式14属于句法规则。

基于CFG的分析器,自顶向下利用产生式，从S开始，尝试将S改写/推导成与输入句子相匹配的终结符号序列。

自底向上利用产生式，尝试将输入句子与产生式右部进行匹配，最后规约到S。

回溯在改写或规约的某一步可能有多个选择。

从一个错误的尝试（改写或规约）返回，进行下一个尝试。

保留改写或规约的历史回溯需要输出正确的分析结果也需要,一个简单的自顶向下句法分析算法,语法1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP位置计数器1The2dogs3cried4状态由符号表和当前位置构成，如：

（NPVP）1）表示从位置1开始寻找NP，且NP后面是VP。

初始状态为：

（S）1）分为当前状态和后备状态。

状态转换当前状态的符号表的第一个符号是词法符号（词性），并且句子中当前词属于该词法类，则删除符号表中第一个符号，并更新当前位置（加1），得到新的当前状态。

当前状态的符号表的第一个符号是句法符号，则依据语法获得所有以该符号为左部的产生式，用它们的右部替换符号表中的该符号，从而得到一批新的状态，选择其中一个作为新的当前状态，其它作为后备状态。

回溯从后备状态中取一个作为当前状态，继续分析,算法1.取（S）1）作为当前状态（初始状态），后备状态为空。

2.若当前状态为空，则失败，算法结束，3.否则，若当前状态的符号表为空，

（1）位置计数器值处于句子末尾，则成功，算法结束

（2）位置计数器值处于句子中间，转54.否则，进行状态转换，若转换成功，则转25.否则，回溯，转2。

“1The2cat3caught4a5mouse6”的分析过程,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,“1The2cat3caught4a5mouse6”的分析过程（续）,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,搜索策略,深度优先后备状态采用“栈”结构后备状态少，存储效率高面临“左递归”问题广度优先后备状态采用“队列”结构后备状态多，存储效率不高,自底向上句法分析,简单的自底向上句法分析效率不高，常常会重复尝试相同的匹配操作（回溯之前已匹配过）。

一种基于图的句法分析技术（ChartParsing）被提出，它把已经匹配过的结果保存起来，今后需要时可直接使用它们，不必重新匹配。

（动态规划）,ChartParsing的数据表示,图（chart）的结点表示句子中词之间的位置数字非活动边集（chart的核心，常直接就被称为chart）记录分析中规约成功所得到的所有词法/句法符号活动边集未完全匹配的产生式，用加小圆圈标记（）的产生式来表示，如：

NP-ARTADJNNP-ARTN待处理表（agenda）记录等待加入chart的已匹配成功的词法/句法符号上面的活动边、非活动边以及词法/句法符号都带有“始/终结点”位置信息,“1The2cat3caught4a5mouse6”分析中的数据示例,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,N（2,3）,agenda,5,6,a,mouse,重复下面的操作，直到agenda为空并且输入中没有下一个词若agenda为空，则把句子中下一个词的各种词法符号（词性）和它们的位置加入进来，从agenda中取一个元素（设为C，位置为：

p1-p2）对下面形式的每个规则增加活动边：

X-CX1.Xn，增加一条活动边：

X-CX1.Xn，位置为：

p1-p2；X-C，把X加入agenda，位置为：

p1-p2将C作为非活动边加入到chart的位置p1-p2对已有活动边进行边扩展对每个形式为：

X-X1.C.Xn的活动边，若它在p0-p1之间，则增加一条活动边：

X-X1.C.Xn，位置:

p0-p2对每个形式为：

X-X1.XnC的活动边，若它在p0-p1之间，则把X加入agenda，位置为：

p0-p2,ChartParsing句法分析算法,“1The2cat3caught4a5mouse6”的分析过程（算法）,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,ART（1,2）,agenda,5,6,a,mouse,“1The2cat3caught4a5mouse6”的分析过程（算法）,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,N（2,3）,agenda,5,6,a,mouse,N,NP（1,3）,“1The2cat3caught4a5mouse6”的分析过程（算法）,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,agenda,5,6,a,mouse,N,NP（1,3）,S-NPVP,NP,“1The2cat3caught4a5mouse6”的分析过程（算法）,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,agenda,5,6,a,mouse,N,V（3,4）,S-NPVP,NP,VP-VNP,VP（3,4）,V,“1The2cat3caught4a5mouse6”的分析过程（算法）,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,agenda,5,6,a,mouse,N,S-NPVP,NP,VP-VNP,VP（3,4）,V,VP,S（1,4）,“1The2cat3caught4a5mouse6”的分析过程（算法）,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,agenda,5,6,a,mouse,N,S-NPVP,NP,VP-VNP,V,VP,S（1,4）,S,“1The2cat3caught4a5mouse6”的分析过程（算法）,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,agenda,5,6,a,mouse,N,S-NPVP,NP,VP-VNP,V,VP,ART（4,5）,S,NP-ARTN,NP-ARTADJN,ART,“1The2cat3caught4a5mouse6”的分析过程（算法）,1,2,3,4,The,cat,caught,ART,NP-ARTN,NP-ARTADJN,活动边,非活动边,1.S-NPVP2.NP-ARTN3.NP-ARTADJN4.VP-V5.VP-VNP,agenda,5,6,a,mouse,N,S-NPVP,NP,VP-VNP,V,VP,N（5,6）,S,NP-ARTN,NP-ARTADJN,ART,N

展开阅读全文