计算机论文基于LSTM的文本上下文依赖特征的表示方法之计算机研究.docx

资源描述

计算机论文基于LSTM的文本上下文依赖特征的表示方法之计算机研究.docx

《计算机论文基于LSTM的文本上下文依赖特征的表示方法之计算机研究.docx》由会员分享，可在线阅读，更多相关《计算机论文基于LSTM的文本上下文依赖特征的表示方法之计算机研究.docx（5页珍藏版）》请在冰豆网上搜索。

计算机论文基于LSTM的文本上下文依赖特征的表示方法之计算机研究.docx

计算机论文基于LSTM的文本上下文依赖特征的表示方法之计算机研究

计算机论文：

基于LSTM的文本上下文依赖特征的表示方法之计算机研究

本文是一篇计算机论文,本文主要研究基于LSTM的文本上下文依赖特征的文本表示方法。

本课题将文本上下文依赖关系细化为词语－词语、实体方面－意见文本以及话题－意见文本3组特征依赖关系，其中词语是取自意见文本数据的内部，而实体方面和话题是与意见文本相独立的，通常不会显示在意见文本中的信息，由此，本文将词语－词语视为内部依赖，而将实体方面－意见文本，话题意见文本视为外部依赖。

第1章绪论

1.1研究背景及意义

随着移动通讯网络环境的升级以及智能移动设备的普及，用户能够利用大量的零碎时间进行网上冲浪。

截止2018年6月，仅我国网民规模就达8.02亿，其中网民使用手机上网的比例高98.25%。

如此庞大的用户人群每分每秒所产生的数据信息都是海量的。

这些信息除了有使用简洁明快的语言进行及时报道的实事以外，还有社会各界人士对该事件的舆论信息。

如果能有效的对这些包含用户意见的数据进行理解和分析，这将成为制定相关决策工作的重要参考依据。

从直观上能够看出，对海量的、无结构的互联网文本数据使用人工的处理方法挖掘信息，往往能够得到较高质量的信息，但是极大地耗费人力资源，并且人工能够处理的数据量是非常有限的。

与此同时，由于计算机无法直接理解文本信息的含义，就需要找到一种形式化的表示方法，这种表示能够反映出文本数据的主题、用户意见等信息。

基于上述需求，面向文本的表示学习方法的研究成为了热门。

文本表示是自然语言处理中的一项关键技术，也是进行自动化文本意见挖掘研究任务中非常重要的基础性工作。

高效能的文本表示方法除了能有效的学习文本中包含的语义信息，还应该能学习文本上下文中包含的结构特征信息。

与此同时，高质量的文本表示是提升文本意见挖掘效果的基础。

早期，许多研究学者主要是从统计学的角度分析问题，主要依据向量空间模型将文本形式化为计算机可计算的信号。

在文本建模过程中，文本被假设是一个特征项集合；然后，使用能够表示特征项权重的数值替换特征项，经过上述处理之后，一个文本就可以轻松地被形式化为一个数值型的向量。

其中，基于词袋模型结合独热编码的文本表示方法就是上述方式的代表方法。

由这种方法生成出来的文本表示具有离散的、稀疏的、高维度等特点，在学习短文本的向量表示过程中，这些特点会表现的尤为明显。

虽然该方法在早期信息检索领域获得过不错的效果，但是在文本意见挖掘领域，由该方法生成的文本表示往往是相互孤立的，不能很好地反映文本间的语义关系。

在现阶段，高维度的文本表示应用到神经网络模型中，容易导致维度灾难。

........................

1.2本文主要研究内容

本文主要研究基于LSTM的文本上下文依赖特征的文本表示方法。

针对不同特征依赖关系，本文提出对应的文本表示方法，如图1-1所示。

......................

第2章相关工作综述

2.1词语分布式表示方法的相关研究综述

互联网文本数据呈现书面用语口语化，情感表达碎化片，文本篇幅较短且精炼的特点。

采用基于早期机器学习的表示方法进行建模，所生成的文本表示过于稀疏，并且文本表示的向量维度超长不易于在深度学习上展开工作。

文献提出了一个神经概率语言模型，该模型是使机器能够学习词语的分布式表示的方法。

由该模型生成的词语分布式表示具有连续、稠密以及低维度的特点。

但文献的作者并未给出一个行之有效的训练方法。

随后针对这一研究领域，研究学者展开了大量的工作。

.......................

2.2基于深度学习的文本表示方法的相关研究综述

词语分布式表示方法的提出和发展，给文本表示带来了新的发展机会。

2014年，Le和Mikolov提出了一个称之为段向量的无监督文本表示方法，并在斯坦福情感树库数据集和电影影评数据集的文本意见挖掘领域取得了优异的效果。

该类型的文本表示方法最大的特点是能够生成一个具有固定维度的向量用于表示可变长度的句子或段落的信息。

该方法包括两个子模型：

段向量的分布记忆模型和段向量的分布式词袋模型.两个子模型是从word2vec方法拓展而来的，最大的差别体现在输入上，段向量的文本表示方法在每次采样计算过程中多了一个表示该句（或段落）的标记D，随后的计算方式与CBOW和Skip-model是一致的。

建模话题与意见文本之间上下文依赖关系，文献提出了一个面向英文推文的立场分析任务，并分享了一个数据集，同时展示了当时各参赛队伍的比赛成绩。

该任务与基于实体方面的情感分析任务之间的主要区别在于话题信息不是明显出现在意见文本中，甚至用户的立场可能与话题自身有关，而与意见文本无关。

文献提出使用具有条件的LSTM编码方法，该编码方法在构建文本表示过程中依赖于话题信息，实验结果证明了它优于通过对推文和话题独立编码的方法。

在中文领域，NLPCC&2016分享了一个面向中文博文的立场分析的任务。

文献提出分别针对每个主题信息训练对应的分析模型，手动生成的五个特征集合分别使用到对应的支持向量机和随机森林。

文献提出了一个基于监督学习方式的针对特定目标的注意力网络模型。

它的主要工作分为两个部分，首先，平均来自话题中词语所对应的词嵌入，并作为话题向量；其次，将话题向量和意见文本中每一个词语对应的词嵌入做拼接处理；然后，生成经过文本信息强化后的话题表示；最后，提出一个神经注意力模型，该模型通过结合经过意见文本强化后的话题表示用以生成意见文本中的特征注意力权重值。

实验表明该工作在中文英文两个数据集上获得最佳效果。

但是该方法在学习话题信息过程中，先学习话题的向量表示然后加以利用，这个过程忽略了话题中每个词语特征与意见文本之间的依赖信息。

本文针对这一问题，提出注意力聚合的文本表示模型用于从话题的个体词语特征出发构建包含话题信息和意见文本信息的文本表示。

.............................

第3章基于注意力机制的双向LSTM的文本表示方法............13

3.1前言.....................13

3.2基于注意力机制的双向LSTM的文本表示模型..............13

第4章基于两阶注意力机制的文本表示方法.............25

4.1引言.............25

4.2基于两阶注意力机制的文本表示模型..............25

第5章基于注意力聚合网络的文本表示方法.............33

5.1引言..........33

5.2基于注意力聚合网络的文本表示模型........33

第5章基于注意力聚合网络的文本表示方法

5.1基于注意力聚合网络的文本表示模型

基于注意力聚合网络的文本表示模型主要包含4个部分：

．输入层，利用自然语言解析器解析意见文本的句法依存特征，然后进行整合；特征学习层，针对意见文本，在标准LSTM神经单元内部増加一个处理句法依存特征的部分，用于实现同时处理输入和与输入相关的句法依赖信息的功能；针对话题，利用标准LSTM学习时序特征；特征权重学习层，该部分建立话题中的每个个体特征与意见文本上下文之间的联系，用于生成注意力权重分布；输出层，将特征权重分布与对应的时序特征进行加权求和得到最后的文本表示，并应用到下游任务。

本章模型结构图，如图5-1所示。

........................

结论

文本表示方法是研宄自动文本意见挖掘工作的关键技术。

有效地学习文本上下文依赖特征信息，能够提升文本意见挖掘任务的实验效果。

本文将上下文依赖关系细分为：

（意见文本内部的）词语与词语、实体方面与意见文以及话题与意见文本。

本文针对3种子关系逐一展开研究，具体研究如下：

首先，在对词语间上下文依赖特征信息进行建模的过程中，本文提出了一个对称式基于注意力机制的双向LSTM模型，通过结合向量化的词性信息用以强化词语间上下文依赖特征信息。

首先，利用本模型的双向LSTM分别对词性间和词语间的上下文进行同步且独立地建模；其次，采用交互的方式，利用本模型的注意力机制学习隐含层状态特征的权重分布；最后，将特征权重和隐含层状态表示进行加权求和，从而得到文本表示。

本文在两个中文情绪分类的数据集上进行实验，实验结果表明，本模型在两个数据集上所获得的情绪分类效果均优于基准模型。

其次，在对实体方面和意见文本间上下文依赖特征信息进行建模过程中，本文提出了一个基于两阶注意力机制的文本表示方法，实现对特征权重分布的生成和修正处理。

首先，本方法的双向LSTM对结合实体方面的意见文本进行建模；其次，本方法的两阶注意力机制对权重分布进行推敲处理。

本文在来自SemEval&2016的面向实体方面的情感分析数据集上，验证本方法的有效性。

实验结果表明，方法所取得的文本意见分类效果优于基准模型。

最后，在对话题和意见文本间上下文依赖特征信息进行建模过程中，本文提出了一个从词语层面对话题进行建模的基于注意力聚合网络的文本表示方法。

首先，本文改进了标准LSTM模型，使之能够同时对输入信息和与输入存在句法依存关系的特征向量进行建模；其次，本文提出了一个注意力聚合机制，用于从特征层面（或词语层面）出发，对话题和意见文本之间的依赖特征进行表示学习。

本课题在来自于SemEval&2016的英文立场分析数据集上进行实验，用于验证本方法的有效性。

实验结果表明，本方法所取得的立场分类效果优于基准模型。

参考文献（略）

展开阅读全文