ImageVerifierCode 换一换
格式:PDF , 页数:8 ,大小:226.64KB ,
资源ID:3176185      下载积分:15 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3176185.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(东北大学毕业设计论文开题报告.pdf)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

东北大学毕业设计论文开题报告.pdf

1、东北大学计算机科学与工程学院东北大学计算机科学与工程学院毕业设计(论文)开题报告毕业设计(论文)开题报告设计(论文)题目:基于文本语义的复杂实体识别设计(论文)题目:基于文本语义的复杂实体识别系统的设计与实现系统的设计与实现姓名:姓名:学号:学号:2012专业:计算机科学与技术专业:计算机科学与技术班级:计算机班级:计算机 1206 班班指导教师指导教师:实习单位:东北大学计算机科学与工程学院实习单位:东北大学计算机科学与工程学院开题日期:开题日期:2016 年年 3 月月 21 日日东北大学毕业设计(论文)开题报告目目录录1 课题提出课题提出 11.1 课题背景、目的与意义 11.2 国内外

2、现状11.3 研究内容22 设计方案论证设计方案论证 22.1 业务描述22.2 数据模型32.3 实现功能42.4 关键技术及难点42.5 解决方案53 开发环境及系统实现开发环境及系统实现54 论文进度计划论文进度计划 55 参考文献参考文献 6东北大学毕业设计(论文)开题报告11 课题提出课题提出1.1 课题背景、目的与意义课题背景、目的与意义在进入 21 世纪后,经过互联网和通信技术的迅速发展、应用和普及,信息量急速增长,使得海量信息以电子文档的形式出现在人们眼前。面对这样的情况,人们迫切地希望计算机能对网上出现的文本信息实现自动化的处理。从而,实体识别技术成为了人们研究的焦点,因为实

3、体识别是文本智能处理过程中的关键技术、基础技术,渗透到自然语言处理的多个方面,如信息检索、文本分类、自动问答、自动摘要、信息抽取等。尤其是在信息技术不断发展的带动下,广泛而深刻地影响着人们生活中的各个方面。中文文本由于不含有西方语言的一些形态特征如大小写字母、分隔符、空格符等,给实体识别技术的研究带来了一些挑战,具体表现在以下几个方面:一、缺乏明显的特征标志,英文文本大多首字母大写,因此易于识别,而中文文本不具有这样的特征,就增加了识别的难度;二、分词的准确性会影响实体的识别,采用不同的分词方法很可能造成命名实体的边界错误,混淆文本语义;三、不同种类的命名实体间存在歧义问题,主要可以分为边界歧

4、义和分类歧义,边界歧义是指命名实体边界的不同会有不同的识别结果,分类歧义是指一个命名实体可以标为几种各不相同的实体类型。面对这样一些困难,基于文本语义的研究就显得尤为重要。因为经过语义分析后的中文文本可以有效地避免由分词错误而引起的实体识别错误。1.2 国内外现状国内外现状随着近些年来,自然语言处理技术的不断发展和进步,基于中文文本的实体识别已成为人们研究的热点课题,国内外众多学者和专家都对此进行了深入的研究。根据他们的研究结果,我们可以知道目前基于中文的实体识别的主要方法是:基于规则的方法、基于统计的方法以及规则和统计相结合的方法。尤其是近几年,应用机器学习方法进行复杂数据上的实体识别技术的

5、研究相当活跃。基于统计的机器学习的方法,利用人工标注的语料进行训练,代价小,这类系统在移植到新的领域时可以不做或者做很少的改动。许多研究者们将复杂数据上的实体识别看作是规则学习、序列标记问题或实体分类聚类问题,从而以各种方式尝试了很多不同的算法或模型,最常用的有隐马尔科夫模型、最大熵模型、支持向量机、条件随机场、转换规则学习等。应用机器学习而研究的实体识别技术具有很好的领域可移植性,并在性能方面有良好的表现。然而就目前来讲,基于文本语义的实体识别技术的研究仍然处于起步阶段,国内东北大学毕业设计(论文)开题报告2外关于中文文本的实体识别的准确率和召回率的报告一般在 90%左右。这是因为文本语义中

6、缺乏字形变化信息,常用手写语法规则并结合词频信息的方法来识别命名实体。现有的中文文本实体识别研究方案可以根据研究范围的不同可以分为两个方向:一是个别解决方案,只识别某一类命名实体,具体如贝叶斯算法等;二是一体化解决方案,可以同时识别多种命名实体,具体如基于层叠隐马尔科夫模型、基于决策树的方法等。1.3 研究内容研究内容本文研究的是实体识别技术,即基于文本在语义方面的相似性来对复杂实体进行识别。目前针对中文文本的实体识别系统绝大部分采用的是基于规则与统计方法相结合的方式,二者可以相互弥补各自的不足,从而获得更加优异的性能。对于本文所做的研究,其应用主要是根据文章的标题和摘要来计算文章之间的相似度

7、,具体可分为以下几个部分:(1)利用现有的中文分词系统将待处理文本进行合理地分词,得到一个易于处理的文本,并尽可能地保证分词的精确度(达到 95%以上)和分词速度(达到千字/s);(2)构建过滤词表,对经过分词处理的文本进行预处理,尽量过滤掉一些语义无关词(如“的”、“和”、“了”等),以降低实体识别的复杂度,提高响应速度;(3)建立合适的分析模型(考虑最大熵模型),主要分析文章的标题和摘要,并利用经过预处理的语料来计算文章相似度;(4)设计有效的评估机制,通过计算实体识别的准确率、召回率以及 F 值来对分析结果的准确性进行合理的评估,以得到一个可靠的输出结果。2 设计方案论证设计方案论证2.

8、1 业务描述业务描述本文主要研究实体识别技术,针对网络上出现的海量文本信息进行详细的语义分析和信息整合,达到文本内容快速识别和文本相似度准确比较的目的。以此为出发点,本次设计的业务描述如图 2.1 所示:东北大学毕业设计(论文)开题报告3中文电子文本分词预处理词性过滤分析模型处理输出结果最大熵模型过滤词表结果评估准确率,召回率图 2.1 业务流程图过滤词表分析结果语法规则评估结果分析结果数据语义关键词文本原始语料文本标题、摘要初始文本分词预处理词性过滤文本相似性分析结果评估用户图 2.2 系统数据流图2.2 数据模型数据模型本文的研究对象为中文文本,数据来源主要是网络上的电子文档,故数据模型可

9、东北大学毕业设计(论文)开题报告4以依据文本结构特点、中文语法规则和文本内容摘要来建立。系统处理过程中的主要数据类型可以分为初始文本、原始语料集、分析结果数据、评估结果数据等,其具体设计如图 2.2 所示:2.3 实现功能实现功能本文所做的复杂数据的实体识别研究,其应用主要是根据文章的标题和摘要来计算文章之间的相似度,故可以具体实现的功能有:词性过滤、相似性分析、结果评估等。系统功能层次如图 2.3 所示:中文电子文本分词预处理词性过滤相似性分析结果评估图 2.3 系统功能层次图2.4 关键技术及难点关键技术及难点本文研究的对象主要是中文文本,因其不含有西方语言的一些形态特征如大小写字母、分隔

10、符、空格符等,给实体识别技术的研究带来了一些挑战,具体存在于:(1)中文文本没有类似于英文文本中空格之类的显示地标识出每个词的边界,并且缺乏明显的特征标志,英文文本大多首字母大写,因此易于识别,而中文文本不具有这样的特征,就增加了识别的难度;(2)分词的准确性会影响实体的识别,采用不同的分词方法很可能造成命名实体的边界错误,混淆文本语义;(3)现代中文文本,尤其是网络上的电子文档,经常会有中英文的交替使用,这样中文实体识别的任务就必须包括识别文本中的英文实体;(4)不同种类的命名实体间存在歧义问题,主要可以分为边界歧义和分类歧义,东北大学毕业设计(论文)开题报告5边界歧义是指命名实体边界的不同

11、会有不同的识别结果,分类歧义是指一个命名实体可以标为几种各不相同的实体类型。2.5 解决方案解决方案经过前面的讨论,我们知道基于中文的实体识别的主要方法有:基于规则的方法、基于统计的方法以及规则和统计相结合的方法。(1)基于规则的方法使用规则方法进行研究主要是利用了两种信息:命名实体字分类和一些限制性成分,即分析命名实体用字来推动命名实体的识别过程,并采用命名实体的前后相关成分对实体的前后位置进行限制,其准确率相对较高。(2)基于统计的方法统计方法主要是对命名实体语料库来训练某个字作为命名实体组成部分的概率值,并用它来计算某个候选字段作为命名实体的概率,其中概率值大于一定阈值的字段为有效的命名

12、实体。其具体方法包括:决策树模型、隐马尔科夫模型、最大熵模型等。(3)规则与统计相结合的方法规则与统计相结合的方法可以通过概率计算减少规则方法的复杂性与盲目性,还可以降低统计方法对语料库规模的要求。目前的研究基本上都是采取这种方法,它们的不同之处在于规则与统计的侧重不同而已。3 开发环境及系统实现开发环境及系统实现软件环境:Win7 操作系统硬件环境:PC 机开发工具:Eclipse,MyEclipse系统实现:采用 java 语言设计实现4 论文进度计划论文进度计划表 4.1.毕业设计进度表序号起止日期任务提交的阶段成果1第1、2周调研调研报告2第3、4周查阅文献资料设计任务书,开题报告3第

13、5、6周系统分析建立系统业务模型,功能模型,数据模型。4第7、8周系统设计功能设计,数据库设计,东北大学毕业设计(论文)开题报告65 参考文献参考文献1.万鑫,周延泉.基于语义的信息处理研究D.中国科技论文在线,2008.2.Metsker S J.Java 设计模式M.电子工业出版社,2012.3.张斌,郭军.软件工程及应用M.东北大学出版社,2007.4.多恩,哈勒维,艾夫斯.数据集成原理M.机械工业出版社,2014.5.李志义.Web 信息检索系统的设计与应用M.清华大学出版社,2011.模块设计。5第9、10周系统实现建立程序原型6第11、12周调试系统程序7第13、14周撰写论文论文全文8第15、16周准备答辩答辩材料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1