于论文.docx - 冰豆网

资源描述

于论文.docx

《于论文.docx》由会员分享，可在线阅读，更多相关《于论文.docx（37页珍藏版）》请在冰豆网上搜索。

于论文.docx

于论文

专业学位硕士学位论文

汉语股市公告信息抽取系统的设计与实现

THEDESIGNANDIMPLEMENTATIONOFCHINESESTOCKBULLETININFORMATIONEXTRACTIONSYSTEM

作者姓名：

学科、专业：

化学与化工学院

学号：

指导教师：

***

完成日期：

山东大学

ShandongUniversity

独创性说明

作者郑重声明：

本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。

尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其它人已经发表或撰写的研究成果，也不包含为获得大连理工大学或者其它单位的学位或证书所使用过的材料。

与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。

作者签名：

日期：

毕业论文版权使用授权书

本毕业论文作者完全了解学校有关保留、使用论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权湖南大学可以将本论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本论文。

本论文属于

1、保密，在年解密后适用本授权书。

2、不保密√。

（请在以上相应方框内打“√”）

学生签名：

日期：

200年月日

指导教师签名：

日期：

200年月日

1概述1

1.1信息抽取技术（InformationExtraction）1

1.1.1信息抽取技术的发展1

1.1.2信息抽取技术的特点3

1.2股市公告信息抽取系统（SBIES）3

1.2.1应用背景3

1.2.2系统框架结构4

1.2.3系统分布结构5

1.3本文内容简介5

2信息抽取模块的设计7

2.1模块内部结构7

2.1.1串行化的模块内部结构及其问题7

2.1.2简化的高性能信息抽取模型8

2.2自动分词9

2.3词类自动标注10

3信息抽取的关键算法13

3.1传统语言学方法13

3.1.1基于规则的信息抽取算法13

3.1.2基于规则信息抽取面临的严峻问题15

3.2统计学方法16

3.2.1基于语料库的统计语言学方法16

3.2.2隐马尔科夫模型（HMM）简介16

3.2.3隐马尔科夫模型（HMM）在信息抽取上的应用17

3.2.4隐马尔科夫模型的训练与优化问题19

4实现与结果分析20

4.1模块实现情况20

4.2两种信息抽取方法的比较21

4.3结果总结21

4.4遗留的问题22

参考文献23

致谢24

摘要

本文介绍了一个基于中文信息抽取模型的股市公告信息抽取系统（SBIES）的设计与实现。

介绍了该系统的结构框架和分布图。

讨论了汉语信息抽取模型的具体结构，构建了由自动分词、自动标注和模板填充三个阶段组成的简化模型。

简单介绍了自动分词的常用算法和自动标注中的标注规范。

重点探讨了模板填充的具体算法。

文中分别讨论了采用基于规则的结构主义方法和基于语料库概率统计的功能主义方法。

着重讨论了采用隐马尔科夫模型进行信息抽取的具体算法。

对模型的参数获取算法作了讨论，改进了Baum-Welch算法以适应信息抽取的应用。

对领域文本做了人工标注，通过计算机处理获取所需的统计数据。

利用统计数据完善HMM模型。

关键词：

信息抽取，隐马尔科夫模型，自然语言

THEDESIGNANDIMPLEMENTATIONOFCHINESESTOCKBULLETININFORMATIONEXTRACTIONSYSTEM

Abstract

ThisarticleintroducedthedesignandimplementationofaChineseIETechnologybasedstockbulletininformationextractionsystem（SBIES）.Theframeworkanddeploymentofthesystemweredescribed.ThestructureoftheChineseinformationextractionmodelwasdiscussedindetail.Weproposedasimplified3tiersIEmodelconsistingofautomaticwordsegmentation,automaticannotation,andtemplatefilling.Thealgorithmsusedinautomaticwordsegmentationandannotationwerebrieflyintroducedwhilealgorithmsusedintemplatefillingwerefocusedon.Inthisarticle,therule-basedstructuralismmethodsandthecorpus-basedstatisticalfunctionalismmethodswerediscussedrespectively.TheHiddenMarkovModel（HMM）wasintroducedtoextractinformationandthealgorithmwasexplainedatlength.ThealgorithmformodelparameteracquisitionwasalsoanalyzedandtheBaum-Welchiterationalgorithmwasmodified.Domaintextswereannotatedmanuallytoacquirestatisticaldataviacomputation.Withthesedata,HMM-basedIEwasimplemented.

KEYWORDS:

informationextraction,hiddenMarkovmodel,naturallanguage

1概述

1.1信息抽取技术（InformationExtraction）

信息技术高速发展的时代中，信息的获取、处理和应用已经成为了经济、科学、军事、文化等各个领域发展的关键活动。

而其中，信息的获取是三个步骤的开端，在信息技术领域中具有尤其重要的地位。

近年来，随着计算机和互联网技术的迅猛发展，各领域可及信息量呈指数级增长。

如何高效获取有用信息成为有效利用信息的关键。

信息抽取（InformationExtraction，简称IE）技术，是自然语言处理领域中一种新兴的技术。

该技术通过抽取、过滤无关信息，使文本信息以用户关心的形式得以再组织，实现高效重组。

将结构松散的自然语言信息，通过抽取转为结构严谨、语义明确的表现形式，利用计算机进行高效存储并加以利用。

1.1.1信息抽取技术的发展

信息抽取技术的雏形最早出现在二十年前。

下面介绍一些信息抽取发展上重要的研究成果以及国内外的研究现状[7]。

●ATRANS系统

ATRANS系统是早在1981年由Cowie研究出来关于动植物正规结构描述数据库的系统及其商用化产品。

该系统采用了概念句子分析技术，通过一些简单的语言处理技术能够完成限制在小规模，特定专业领域的信息抽取任务。

●FRUMP系统

FRUMP系统由GeraldDejong在80年代初实现。

该系统把有限新闻网络作为数据源，使用一些新闻故事的简单脚本来对有限新闻网络进行监控。

它采用关键字检索、概念句子分析、脚本匹配等方法来寻找新闻故事。

FRUMP系统是一个面向语义的系统，采用了一个特定专业领域的事件描述脚本知识库。

●SCISOR系统

80年代末，美国GE研究与开发中心的LisaF.Rau等研制的SCISOR（SystemforConceptualInformation，OrganizationandRetrieval）系统所处理的对象是有关"公司合并"的新闻报导。

SCISOR首先采用关键词过滤和模式匹配的方法对待处理文献进行主题分析，以便判定该报道的内容是否与"公司合并"有关；然后采用自底向上的分析器识别句子结构，生成概念表示；最后应用自顶向下的预期驱动分析器提取预期内容。

●MUC（MessageUnderstandingConference）是一个ARPA资助的、为推动IE技术发展的一个重要的系列工程。

有许多大学、研究所参加。

1987年的MUC-1和1989年的MUC-2主要集中在从小规模的海军信息文本中抽取相关的信息。

1991年的MUC-3和1992年的MUC-4采用的文本主题和类型发生了变化，采用关于拉丁美洲国家恐怖事件通用主题的报纸和有线新闻文本作为语料源，系统包括预定义好的信息模板和辅助抽取规则，基本任务是从在线文本中抽取有关信息填入预定义的模板中的属性槽中。

1993年的MUC-5的文本主题是关于合资企业的商业新闻以及微电子芯片的制作方面的新闻，涉及英语和日语文档。

所抽取的信息包括合资企业的合资者、合资公司的名称、所有权和资本以及预期的活动，或者微电子芯片的制作活动的性质和状态等有关项。

涉及到多语言和多领域的文档，以便进行抽取信息的性能评价比较。

1995年的MUC-6的信息抽取任务第一次涉及到用SGML语言所标记的文本中的名称项（namedentity）和指同项（coreference）的处理。

除了场景模板（scenario）任务以外，名称项、指同项和模板元素（templateelement）信息抽取任务均与特定专业领域无关。

测试的语料采用"华尔街杂志"中的文本。

1998年的MUC-7是最近的一次信息理解会议。

它的信息抽取任务涉及抽取文档中的名称项（人名、组织名和地点名）；指同项；确定模板元素之间的关系，如地点关系、雇佣关系和生产关系等；抽取文档中的事件。

文档包含多语种的新闻稿。

训练用的文档专业领域是关于飞机坠毁报道，而测试用的文档专业领域是关于发射事件报道。

●FASTUS系统

FASTUS系统（FiniteStateAutomatonTextUnderstandingSystem）是美国加里福尼亚斯坦福研究所人工智能中心从1991年开始开发的一个基于多层、非确定有限状态自动机模型的自然语言文本信息抽取系统。

它共有六层转换机制，即：

切分标记层、预处理层、名称项识别层、简单短语识别层、复杂短语识别层、指同求解层。

分解的语言处理使此系统能够处理大量的与专业领域无关的句法结构，以致于与专业领域相关的语义和语用处理能被应用到相当大部分的语言结构上。

正因为FASTUS系统具有这样的特点，它已被成功地运用于许多应用中。

●TIPSTER计划

由美国国防部（DoD）、DefenseAdvancedResearchProjectsAgency（DARPA）和CentralIntelligenceAgency（CIA）共同资助的TIPSTER计划包括至少15个与工业和学术有关的项目。

目的是改进文本处理的流行技术。

TIPSTER的体系结构使用一组通用的文本处理模块已能满足不同的文本处理应用的需要。

这些应用主要是文本检测（定位包含某一信息类型的文本）和信息抽取（定位文本中的特定信息）。

在TIPSTER研究的第一阶段，参与者通过一些活动如MUC和TREC（TextRetrievalConferences）对文本检测和信息抽取所建立算法进行改进以及提高对评价这些改进的技术。

在第二阶段的研究中，TIPSTER参与者为了使技术组成构件标准化，将注意力转向软件体系结构的开发上。

使各种所开发的工具具有"即插即用"的性能，增加软件的共享程度。

在目前进行的第三阶段的研究中，一种称为ACP（ArchitectureCapabilitiesPlatform）的平台被开发，它支持评价、扩展和探索进展中的TIPSTER体系结构。

ACP将采用CORBA（CommonObjectRequestBrokerArchitecture）结构为研究者提供鲁棒及相配的TIPSTER组成构件。

它将支持TIPSTER体系结构的扩展，以便与机器翻译、语音和光学字符识别、图象观察、用户界面构件以及大规模信息系统相适应。

●SMES系统

由德国人工智能研究中心语言技术实验室（DFKI-LT）在Paradime项目中所开发的SMES（SaarbrückenInformationExtractionSystem）系统是一个联机的德语文挡信息抽取智能系统。

文档的专业领域包括通讯稿、经济报告和技术说明书。

SMES系统拥有大量的语言知识资源（如电子词典包括12万条词项以及可扩展性很强的专门语法）以及极其快速和鲁棒的自然语言构件。

它还能利用机器学习机制使自身能为实现新功能得到训练和配置，并能适应所需的信息数量和各种文档长度。

它被集成了图形可视化技术、服务器体系结构和英特网访问技术。

SMES作为一个有效的智能信息检索的核心系统已经成功地运用于科学和工业项目中。

●国内对信息抽取的研究才刚刚起步。

1998年２月在东北大学学报（自然科学版）发表了《中文信息自动抽取》一文，介绍了中文信息抽取的概念和对一些问题进行了初步的探索。

国内对涉及中文和其他语种的多语种信息抽取技术还未见报道。

1.1.2信息抽取技术的特点

●信息抽取技术不同于传统的信息检索和自动摘要技术。

●与信息检索（InformationRetrieval，简称IR）技术的区别

与传统的信息检索技术比较，信息抽取技术有明显的优势：

信息检索只是通过单纯的匹配检索得到相关的文档，而并不真正理会文档的实际内容信息，文档被等同于无意义的词汇堆砌物；而信息抽取则是通过文本分析、语段分析、模板生成等过程抽取出有效的信息内容。

●与自动摘要（AutomaticAbstraction）技术的区别

与传统的自动文摘（AutomaticAbstraction）技术比较，信息抽取技术的应用前景更好：

自动文摘产生的文摘往往质量较低，而且容易产生不全面、不连贯和冗余多等等问题；而信息抽取则针对有价值的相关领域的文本进行结构分析，其效率和质量显著提高，也更容易面向实际应用。

信息抽取技术具有其独有的优势。

利用浅层的自然语言处理技术（ShallowNaturalLanguageProcessingTechnology，简称SNLPT），可以实现高效率的自然语言处理；将非结构化的信息改变为利于计算机存储、处理的结构化形式，有利于信息的重复高效利用。

1.2股市公告信息抽取系统（SBIES）

1.2.1应用背景

●随着我国改革开放的深入，市场经济的发展，证券市场的到了空前的繁荣。

目前，在沪深两地上市的公司数目已达几千家。

每天在两地市场公布的股市公告少则几十条，多则百余条，文本量较大。

如果需要在若干年的公告纪录中，迅速查找各种相关的公告，如采取传统的关键字查找技术，恐怕难以获取很高效率。

●考虑到信息抽取技术能够有效地从大量文本中过滤出用户可能关心的信息，并进行结构化存储以便迅速查询，希望基于信息抽取技术构造股市公告信息抽取系统（StockBulletinInformationExtractionSystem，简称SBIES）。

由于股市公告文本具有以下一些特点，故认为采取信息抽取技术能够大幅度提高系统的性能表现。

●句法简单。

在一般股市公告中，通常以简单而表意清楚陈述句式为主。

几乎不出现具有二义性的语句。

这为自然语言处理和信息抽取提供了较好的先决条件。

●格式规整。

常见的股市公告大致可以分为若干种，如：

停牌公告、财务指数公告、董事会决议公告、配送股公告、新股上市公告、等等。

每一种公告都有相对固定的组成要素，容易构造模板加以描述。

●文本量大。

仅以上海证券交易所为例，每天的临时性公告文本量平均约20KB（以汉字记约1万字）。

一年累计的公告文本约有6MB（约300万汉字）。

对于计算机而言，这个数量可谓及其微小，而对于人工阅读而言却是一个繁复而耗时的工作。

●多语种特性。

股票市场使金融的重要组成部分，而在全球金融一体化的今天，世界各大证券市场之间的息息相关。

而各国的证券市场在第一时间通常只能以一种或有限的几种语言发布公告信息，这就给股市公告带来了天生的多语种特性。

●设计一个股票文本的信息抽取系统具有较高的实用价值。

股市公告的文本量庞大，但结构固定、内容单一，这正适合于计算机处理。

信息抽取技术能够自动的从庞大的文本库中，动态地根据用户关心的内容提取文本蕴含的信息。

同时，信息抽取能够采用独立于语种的方式存储信息。

这样，用户就不必关心原始文本的语种，可以用他（她）所熟悉的语种进行抽取请求，并得到以他（她）希望语种表示的信息抽取结果。

1.2.2系统框架结构

如上所述，该系统将基于信息抽取技术进行构建。

但是为了实现真正可用的应用系统，还需要其它一些模块的进行协同工作。

图一种给出了本系统的基本框架结构。

图一：

SBIES结构框架图

图中，信息抽取模块是整个系统的核心所在，他将根据用户的需求将原始文本经信息抽取后，以独立于语种的方式存入信息库中。

对该模块的设计与实现，是本文的重点，将在后面进行详细论述。

●用户需求分析模块，是能够收集用户需求，控制其它个模块进行协同工作的智能人机界面。

该模块是系统的控制中心，体现了以用户需求为核心的设计思想。

该模块能为用户提供一个智能化的易用界面。

用户只需以自然语言形式输入询问的问题，该模块即可将询问转化为一系列的内部指令，控制各模块针对询问做出响应。

●结果表示模块，是将查询结果以用户易于理解的方式进行表示的模块。

其中主要采用了自然语言生成（NaturalLanguageGeneration，简称NLG）技术。

自然语言生成的主要目标是研究计算机如何根据信息在机器内部的表达形式生成一段高质量的自然语言文本。

所谓高质量是指生成的文本与人工文本比较接近，形式多样，而且能适应外部应用的变化而做相应的调整，整个系统的维护性好[2]。

在本系统中，根据用户询问，从信息库中查询获取的结果，对用户而言仍然是晦涩难懂的。

因此需要一种较好的方式来将查询结果反馈给用户。

由于信息抽取技术的结果能够使信息以独立于语种的方式进行存储，如果结合相应的不同语种的自然语言生成技术，即可使根据用户的要求，获得以各种语言表述的查询结构。

除了结合自然语言生成技术，以自然语言形式生成结果外，还可以用图表等形式输出一些数据的统计结果，这也是表示模块的功能之一。

1.2.3系统分布结构

图二给出了系统的整体分布图。

图二：

SBIES分布图

●由图可见，本系统直接挂接在Internet上，数据来源和用户界面主要都通过Web实现。

由一个Robot程序自动通过Web进行股票公告文本的自动搜集，搜集的文本经过预处理成为信息抽取模块能够接受的文本后，采用IE技术进行信息抽取，将结果存放入信息库中。

如果必要，可以对信息库数据进行分析。

用户通过Internet访问该系统，查询的结果也通过Internet返回给用户。

1.3本文内容简介

●本文将详细论述股市公告信息抽取系统中，信息抽取模块的设计和实现。

●第一章，概述。

简介信息抽取技术的历史和特点，与传统的NLP技术做了优缺点比较。

提出SBIES的应用背景，介绍整体结构框架和模块分布情况。

●第二章，信息抽取模块的设计。

提出SBIES中信息抽取模块（也就是本系统的核心模块）的具体结构。

●第三章，信息抽取的关键算法。

这是本文的重点章节。

具体探讨了信息抽取模块中信息抽取的几种关键算法。

比较了采用传统语言学方法和统计学方法进行信息抽取的优缺点和适用情况。

●第四章，实现与结果分析。

将给出部分统计数据和结果总结。

2信息抽取模块的设计

2.1模块内部结构

2.1.1串行化的模块内部结构及其问题

●自然语言信息抽取是一系列浅层自然语言处理技术的结合体。

为了将非结构化的自然语言文本转化到结构化的信息库中，需要多种自然语言处理技术的协同工作。

从某种意义上说，这些处理技术将以串行的方式运行，即前一个步骤的处理输出结果将作为后一步骤的输入。

这种工作方式优点是模块内部结构简单，便于分级调试。

●根据传统的自然语言处理技术，汉语的信息抽取模块中大致应包含的处理步骤应当包括了分词处理、名称分析、语法分析、语义分析、场景匹配、一致性分析、推理判断、模板匹配填充，等等。

●但子过程的串联，带来的问题是，各个阶段处理的准确性高度依赖于前端输出的正确性。

例如：

假设信息抽取全过程由n个串联子过程组成，第k个子过程的查准率（或者查全率）分别为

，则整个模块的查准率（或者查全率）应为：

●

●一般而言，目前自然语言处理技术中虽然存在众多不同的算法，进行不同层次的分析处理，但其查准率和查全率却大都不是很高[17]。

通常在60%~90%之间不等。

当前MUC英文信息提取的各项指标（最好水平）大体上如下[SAIC99][Chinchor99]：

实体（Entities）识别90%，属性识别（Attributes）80%（TE任务）；事实识别（Facts）70%（TR任务）；事件识别（Events）60%（ST任务）。

这些指标也自然地反映了自然语言处理在各个层次上的难度。

●在最近一届MUC上表现最好的是SRA公司的系统[Aoneetal,98]，其所有3项IE指标都是最高的。

其评测结果如下：

●

●Recall

●Precision

●F-Score

●TE

●86%

●87%

●86.76

●TR

●67%

●86%

●75.63

●ST

●42%

●65%

●50.79

●表一：

MUC-7测评结果

●可以看出，在这样的查准率和查全率下，整个模块的性能表现将随着串联模块数量的增加迅速下降。

显然，过低的查准率和查全率，对于一个应用系统是缺乏实用意义的。

●因此，要构建可实用的信息抽取系统，有两个种途径：

●其一，进一步探讨各个处理模块的更有效的处理方法，以达到更高的查准率和查全率；

●其二，改变信息抽取模型结构，根据应用领域的特殊性，简化串行结构的长度，以提高模块整体的性能表现。

●第一种途径显然是信息抽取技术逐步发展成熟的必然途径，但是在短期内恐怕还难以在这一方向上取得突破性的发展。

而第二种途径却是目前可能做到的。

因为不同的应用领域具有不同的特性，结合这些特性可以有力地提高各个模块的处理正确性，简化信息抽取模型。

以下将结合股市公告文本信息抽取的特点，讨论信息抽取模型的简化。

2.1.2简化的高性能信息抽取模型

●在我们即将设计和实现的股市公告信息抽取系统中，希望通过缩短处理子过程的路径长度，来提高信息抽取模型的性能。

●由于股市公告文本具有以下一些特性，所以简化信息抽取模型是可能的。

●一方面，股市公告文本的主题分类比较明显。

一般而言，股市公告主要包括了停牌公告、财务指数公告、董事会决议公告、配送股公告、新股上市公告等若干种类型。

每种公告文本类别论述的主题比较固定，利于用抽取模板加以描述。

●另一方面，各类公告文本的格式相对简单、固定。

通常很少出现句式的变化，陈述

展开阅读全文