东北大学毕业设计论文开题报告.pdf

资源描述

东北大学毕业设计论文开题报告.pdf

《东北大学毕业设计论文开题报告.pdf》由会员分享，可在线阅读，更多相关《东北大学毕业设计论文开题报告.pdf（8页珍藏版）》请在冰豆网上搜索。

东北大学毕业设计论文开题报告.pdf

东北大学计算机科学与工程学院东北大学计算机科学与工程学院毕业设计（论文）开题报告毕业设计（论文）开题报告设计（论文）题目：

基于文本语义的复杂实体识别设计（论文）题目：

基于文本语义的复杂实体识别系统的设计与实现系统的设计与实现姓名：

姓名：

学号：

2012专业：

计算机科学与技术专业：

计算机科学与技术班级：

计算机班级：

计算机1206班班指导教师指导教师:

实习单位：

东北大学计算机科学与工程学院实习单位：

东北大学计算机科学与工程学院开题日期：

开题日期：

2016年年3月月21日日东北大学毕业设计（论文）开题报告目目录录1课题提出课题提出11.1课题背景、目的与意义11.2国内外现状11.3研究内容22设计方案论证设计方案论证22.1业务描述22.2数据模型32.3实现功能42.4关键技术及难点42.5解决方案53开发环境及系统实现开发环境及系统实现54论文进度计划论文进度计划55参考文献参考文献6东北大学毕业设计（论文）开题报告11课题提出课题提出1.1课题背景、目的与意义课题背景、目的与意义在进入21世纪后，经过互联网和通信技术的迅速发展、应用和普及，信息量急速增长，使得海量信息以电子文档的形式出现在人们眼前。

面对这样的情况，人们迫切地希望计算机能对网上出现的文本信息实现自动化的处理。

从而，实体识别技术成为了人们研究的焦点，因为实体识别是文本智能处理过程中的关键技术、基础技术，渗透到自然语言处理的多个方面，如信息检索、文本分类、自动问答、自动摘要、信息抽取等。

尤其是在信息技术不断发展的带动下，广泛而深刻地影响着人们生活中的各个方面。

中文文本由于不含有西方语言的一些形态特征如大小写字母、分隔符、空格符等，给实体识别技术的研究带来了一些挑战，具体表现在以下几个方面：

一、缺乏明显的特征标志，英文文本大多首字母大写，因此易于识别，而中文文本不具有这样的特征，就增加了识别的难度；二、分词的准确性会影响实体的识别，采用不同的分词方法很可能造成命名实体的边界错误，混淆文本语义；三、不同种类的命名实体间存在歧义问题，主要可以分为边界歧义和分类歧义，边界歧义是指命名实体边界的不同会有不同的识别结果，分类歧义是指一个命名实体可以标为几种各不相同的实体类型。

面对这样一些困难，基于文本语义的研究就显得尤为重要。

因为经过语义分析后的中文文本可以有效地避免由分词错误而引起的实体识别错误。

1.2国内外现状国内外现状随着近些年来，自然语言处理技术的不断发展和进步，基于中文文本的实体识别已成为人们研究的热点课题，国内外众多学者和专家都对此进行了深入的研究。

根据他们的研究结果，我们可以知道目前基于中文的实体识别的主要方法是：

基于规则的方法、基于统计的方法以及规则和统计相结合的方法。

尤其是近几年，应用机器学习方法进行复杂数据上的实体识别技术的研究相当活跃。

基于统计的机器学习的方法，利用人工标注的语料进行训练，代价小，这类系统在移植到新的领域时可以不做或者做很少的改动。

许多研究者们将复杂数据上的实体识别看作是规则学习、序列标记问题或实体分类聚类问题，从而以各种方式尝试了很多不同的算法或模型，最常用的有隐马尔科夫模型、最大熵模型、支持向量机、条件随机场、转换规则学习等。

应用机器学习而研究的实体识别技术具有很好的领域可移植性，并在性能方面有良好的表现。

然而就目前来讲，基于文本语义的实体识别技术的研究仍然处于起步阶段，国内东北大学毕业设计（论文）开题报告2外关于中文文本的实体识别的准确率和召回率的报告一般在90%左右。

这是因为文本语义中缺乏字形变化信息，常用手写语法规则并结合词频信息的方法来识别命名实体。

现有的中文文本实体识别研究方案可以根据研究范围的不同可以分为两个方向：

一是个别解决方案，只识别某一类命名实体，具体如贝叶斯算法等；二是一体化解决方案，可以同时识别多种命名实体，具体如基于层叠隐马尔科夫模型、基于决策树的方法等。

1.3研究内容研究内容本文研究的是实体识别技术，即基于文本在语义方面的相似性来对复杂实体进行识别。

目前针对中文文本的实体识别系统绝大部分采用的是基于规则与统计方法相结合的方式，二者可以相互弥补各自的不足，从而获得更加优异的性能。

对于本文所做的研究，其应用主要是根据文章的标题和摘要来计算文章之间的相似度，具体可分为以下几个部分：

（1）利用现有的中文分词系统将待处理文本进行合理地分词，得到一个易于处理的文本，并尽可能地保证分词的精确度（达到95%以上）和分词速度（达到千字/s）；

（2）构建过滤词表，对经过分词处理的文本进行预处理，尽量过滤掉一些语义无关词（如“的”、“和”、“了”等），以降低实体识别的复杂度，提高响应速度；（3）建立合适的分析模型（考虑最大熵模型），主要分析文章的标题和摘要，并利用经过预处理的语料来计算文章相似度；（4）设计有效的评估机制，通过计算实体识别的准确率、召回率以及F值来对分析结果的准确性进行合理的评估，以得到一个可靠的输出结果。

2设计方案论证设计方案论证2.1业务描述业务描述本文主要研究实体识别技术，针对网络上出现的海量文本信息进行详细的语义分析和信息整合，达到文本内容快速识别和文本相似度准确比较的目的。

以此为出发点，本次设计的业务描述如图2.1所示：

东北大学毕业设计（论文）开题报告3中文电子文本分词预处理词性过滤分析模型处理输出结果最大熵模型过滤词表结果评估准确率，召回率图2.1业务流程图过滤词表分析结果语法规则评估结果分析结果数据语义关键词文本原始语料文本标题、摘要初始文本分词预处理词性过滤文本相似性分析结果评估用户图2.2系统数据流图2.2数据模型数据模型本文的研究对象为中文文本，数据来源主要是网络上的电子文档，故数据模型可东北大学毕业设计（论文）开题报告4以依据文本结构特点、中文语法规则和文本内容摘要来建立。

系统处理过程中的主要数据类型可以分为初始文本、原始语料集、分析结果数据、评估结果数据等，其具体设计如图2.2所示：

2.3实现功能实现功能本文所做的复杂数据的实体识别研究，其应用主要是根据文章的标题和摘要来计算文章之间的相似度，故可以具体实现的功能有：

词性过滤、相似性分析、结果评估等。

系统功能层次如图2.3所示：

中文电子文本分词预处理词性过滤相似性分析结果评估图2.3系统功能层次图2.4关键技术及难点关键技术及难点本文研究的对象主要是中文文本，因其不含有西方语言的一些形态特征如大小写字母、分隔符、空格符等，给实体识别技术的研究带来了一些挑战，具体存在于：

（1）中文文本没有类似于英文文本中空格之类的显示地标识出每个词的边界，并且缺乏明显的特征标志，英文文本大多首字母大写，因此易于识别，而中文文本不具有这样的特征，就增加了识别的难度；

（2）分词的准确性会影响实体的识别，采用不同的分词方法很可能造成命名实体的边界错误，混淆文本语义；（3）现代中文文本，尤其是网络上的电子文档，经常会有中英文的交替使用，这样中文实体识别的任务就必须包括识别文本中的英文实体；（4）不同种类的命名实体间存在歧义问题，主要可以分为边界歧义和分类歧义，东北大学毕业设计（论文）开题报告5边界歧义是指命名实体边界的不同会有不同的识别结果，分类歧义是指一个命名实体可以标为几种各不相同的实体类型。

2.5解决方案解决方案经过前面的讨论，我们知道基于中文的实体识别的主要方法有：

基于规则的方法、基于统计的方法以及规则和统计相结合的方法。

（1）基于规则的方法使用规则方法进行研究主要是利用了两种信息：

命名实体字分类和一些限制性成分，即分析命名实体用字来推动命名实体的识别过程，并采用命名实体的前后相关成分对实体的前后位置进行限制，其准确率相对较高。

（2）基于统计的方法统计方法主要是对命名实体语料库来训练某个字作为命名实体组成部分的概率值，并用它来计算某个候选字段作为命名实体的概率，其中概率值大于一定阈值的字段为有效的命名实体。

其具体方法包括：

决策树模型、隐马尔科夫模型、最大熵模型等。

（3）规则与统计相结合的方法规则与统计相结合的方法可以通过概率计算减少规则方法的复杂性与盲目性，还可以降低统计方法对语料库规模的要求。

目前的研究基本上都是采取这种方法，它们的不同之处在于规则与统计的侧重不同而已。

3开发环境及系统实现开发环境及系统实现软件环境:

Win7操作系统硬件环境：

PC机开发工具：

Eclipse,MyEclipse系统实现：

采用java语言设计实现4论文进度计划论文进度计划表4.1.毕业设计进度表序号起止日期任务提交的阶段成果1第1、2周调研调研报告2第3、4周查阅文献资料设计任务书，开题报告3第5、6周系统分析建立系统业务模型，功能模型，数据模型。

4第7、8周系统设计功能设计，数据库设计，东北大学毕业设计（论文）开题报告65参考文献参考文献1.万鑫,周延泉.基于语义的信息处理研究D.中国科技论文在线,2008.2.MetskerSJ.Java设计模式M.电子工业出版社,2012.3.张斌,郭军.软件工程及应用M.东北大学出版社,2007.4.多恩,哈勒维,艾夫斯.数据集成原理M.机械工业出版社,2014.5.李志义.Web信息检索系统的设计与应用M.清华大学出版社,2011.模块设计。

5第9、10周系统实现建立程序原型6第11、12周调试系统程序7第13、14周撰写论文论文全文8第15、16周准备答辩答辩材料

展开阅读全文