基于企业社会责任报告的创新性研究-周辉-2018.01.05.pptx

资源描述

基于企业社会责任报告的创新性研究-周辉-2018.01.05.pptx

《基于企业社会责任报告的创新性研究-周辉-2018.01.05.pptx》由会员分享，可在线阅读，更多相关《基于企业社会责任报告的创新性研究-周辉-2018.01.05.pptx（50页珍藏版）》请在冰豆网上搜索。

基于企业社会责任报告的创新性研究-周辉-2018.01.05.pptx

基于企业社会责任报告的创新性研究报告人：

周辉目录CONTENTS01基本内容简介02具体报告分析01基本内容简介01文本相似性检测文本相似性检测作为组织和管理海量信息的基础性工作，对于信息检索、文本聚类和分类、机器翻译等计算结果的优劣具有深远影响，在智能搜索、违规词汇过滤、文档检测、智能数字图书馆等领域，都有着广泛的应用前景。

文本相似性检测技术按时间顺序经历了词汇相似、句子相似和文本相似的研究发展历程，目前有词汇之间、词句之间、词文之间、句子之间、句文之间、文本之间六种相似性检测方式，每种检测方式都有其特定的应用领域。

01文本相似性检测词汇相似主要应用在机器翻译等领域;词句之间、句文之间和词文之间的相似性度量主要用在信息检索等领域;句子之间的相似大多应用在自动答疑系统的研发领域;文本之间相似性检测的应用方向主要集中在文本的分类和聚类等研究开发领域。

01文本相似性检测文本相似性检测的实质就是通过对一组或多组文本对象进行特征提取，建立特定的文本表示模型，采用数字化方式衡量文本间的相似程度。

假设有文档A和文档B，则文档A和B的相似度就用A和B中相同文本的字数占各自文本字数的百分比来表示，这个数介于0和1之间。

而不同的文本也有不同的检测方式。

01文本相似性检测在英文文本的相似性检测中，因英语语言特点，所有英文单词由26个英文字母构成，且近义单词数量有限，句法相对简单，复合句多由诸如“that,what,where”等单词引导，词语之间也以空格为间隔标识，便于文本特征的提取和相似计算处理;01文本相似性检测中文的相似性检测相比英文文本处理则复杂得多，汉语言句法结构复杂，语义的过渡无明显标识，汉字的不同组合会产生不同的意义，如“中国人”在中文信息处理中可分为名词“中”、“中国”和“中国人”三个词，词义具有本质的差别，词语的鉴别需要借助整句语义或上下文环境。

所以，中文文本数据的相似性判定需要考虑汉语言的语法、句法、语义特点，能够较为准确的将文本内容分割成符合主题思想的词条集合，是保证计算机能够模拟人类理解效果的基础所在。

01文本相似性检测不同的中文分词算法决定了不同的相似性检测手段，最终得到的判定结果一般也会有差异。

文本相似性检测方法的优劣标准除了要求算法具有高效性和准确性两大特点，还要求算法能够分析自然语言的角度处理文本数据，让计算机理解文本主题思想和作者要表达的意图，并以此给出比较结果，达到近似人工阅读时的相似度区分效果。

01文本相似性检测文本的相似性检测研究主要意义在于，如何利用更加准确和高效的检测算法，有效度量文本数据之间的相似程度，将不同类别、不同规模的文本数据区分开来。

相似性检测的发展能够为后文本挖掘时期的科研应用提供理论基础，尤其是对分类检索这类文本挖掘拓展领域具有决定性的影响。

01文本相似性检测文本相似性检测研究意义主要体现在以下几个方面:

（1）使计算机从人类语言的角度理解处理文本，为中文信息处理的各种应用开发奠定理论基础。

充分发挥计算机处理数据的高效性，通过度量文本相似性，快速实现模拟人工处理文本数据的效果，协助人类开展更为复杂的文本研究工作。

（2）提升需求信息的检索速度，目前诸如各种信息搜索系统和各大论坛、网络社区使用的文本过滤系统大多数停留在简单的字数串匹配技术上，使信息的查询效率十分低下，需要引入先进的文本相似性检测方法，实现信息的高速查询效果。

（3）提高信息查询相关资料的全面性。

当我们进行信息检索时，通过文本相似度的计算，可以将最符合检索条件的检索结果展现在用户面前，同时根据检索条件的不同重排结果顺序。

百度、谷歌、雅虎等搜索引擎的快速发展，充分说明了信息检索领域的巨大市场前景和发展空间。

01文本相似性检测文档查重是文本相似性判别研究的一个重要应用领域，能否精确的检测判定文本抄袭程度己经成为评价判别方法优劣的重要指标。

Turnitin的OriginalityCheck平台的数据库涵盖了240亿万的网页资料、2.5亿万份的学生论文及数以万计书记文章，能够快速得出文章的相似度指标，并给出原作出处，但该平台仅限于英文文档检测。

01文本相似性检测相比之下，国内学者对中文文本相似性计算的研究起步虽晚，但发展迅速。

1999年潘谦红、王炬等人提出提取文本的基本属性建立文本属性重心剖分模型，利用坐标点距离计算关键词之间的相似性，利用单纯形计算文本之间的相似性。

2002年刘群、李素建等人研究了知网的多维知识表示模型后，提取词条的相似语义构成相似语义树，计算树节点之间的距离得出词条之间的语义距离，将语义距离作为度量两个词条是否相似的标准。

车万翔等人使用知网和同义词词林作为语义资源，提出采用改进编辑距离的句子相似度计算方法，利用多重词汇语义改进编辑距离的算法。

金博等人在以前中文词语相似研究成果的基础上，借鉴词语的语义相似算法，利用知网的语料库实现了句子之间和段落之间的相似性判别方法。

01文本相似性检测目前，清华同方知网的科技期刊学术不端文献检测系统（AMLC）、学位论文学术不端行为检测系统（TMLC2）和武汉大学的ROST论文抄袭检测软件是国内最主要的文本相似性判别计算系统，其中知网的两个检测系统己经实现了多语种、图文抄袭检测功能，可以实现更准确的相似判别效果。

01文本相似性检测方法根据文档的数据模型，目前的文本相似性检测方法分为3类:

基于词频向量的文档相似性检测方法基于相似度估值的相似性检测方法基于关键词匹配的文档相似性检测方法01基于词频向量的文本相似性检测方法基于词频向量的文本相似性检测方法通过收集整理的词典，将文档表示为词频组成的向量，根据词典中每个词出现的频率，对词典中不同字词赋予不同的权值，再通过欧氏距离或者余弦距离等方式量化文档之间的相似度，此类检测方法主要是检测文档词频的相似性。

01基于词频向量的文本相似性检测方法基于词频向量的文本相似性检测方法主要有:

1995年斯坦福大学Garcia-Molina等人提出的SCAM（检测复制文件和剽窃文件）模型以及以SCAM为基础的DSCAM模型；1997年香港理工大学Si等人提出的CHECK模型；2001年西安交通大学宋擒豹等提出的CDSDG（数字产品的复制检测系统）模型；2006年西安交通大学鲍军鹏等提出的高频模型HFM；01基于词频向量的文本相似性检测方法基于词频向量的文本相似性检测方法具有检测结果准确率低、容易误判等特点，主要原因为基于词频向量的检测方法将词典中的每个词之间的差别等同看待，有时不能满足实际要求。

在实际应用中，文档之间的不同字、词具有不同的权重，而不同的词对于区分文档有着不同的重要性。

此类检测方法还有一个弊端，由于词典一般词数较多，造成文档模型的词频向量维度很大，比对时间过长。

01基于关键词匹配的文本相似性检测方法基于关键词匹配的文本相似性检测方法首先从文档中选取一定数量的关键词，然后把这些关键词散列为哈希表中的数值，得到文档的“指纹”，此类方法主要检测文档关键词集合中的相同元素。

01基于词频向量的文本相似性检测方法基于关键词匹配的文本相似性检测方法主要有:

1995年斯坦福大学的Brin等提出的COPS（文档复制检测）系统；贝尔实验室的KOALA（前端预处理器语言图形编译工具）系统;1997年Broder等人提出的Shingling（网页查重算法）方法;2000年Monostori等人建立的MDR（匹配检测显示）系统;01基于关键词匹配的文本相似性检测方法基于关键词匹配的文本相似性检测方法过程清晰且易于理解，需要在分词处理后进行关键词匹配，检测质量非常依赖于分词质量。

对于一般的分词技术，只能检测出较为简单的完全复制文本，并不能检测出复杂语境下的相似文本。

而且在海量文档环境下，该类方法的文档比对过程非常耗时。

01基于相似度估值的文本相似性检测方法基于相似度估值的文本相似性检测方法既有检测文档词频相似性的方法，比如随机投影，也有检测关键词集合交集为目标的minwise相似度估计算法。

这类方法采用降维技术，将文档向量或关键词集合转换为k个指纹的集合，用这k个指纹集合来表征一篇文档，当求解相似度时，直接比对指纹集合的相似度即可得文档的相似度。

此时，样本大小k的选取较为关键:

k越大，估值方差越小，估计精度越高;k越小，估值的方差越大，估计精度就越低。

01基于相似度估值的文本相似性检测方法基于相似度估值的文本相似性检测方法主要有:

随机投影方法；1998年Broder等人提出的minwise哈希算法；2002年Charikar等提出的simhash算法（处理海量文本去重）；2010年Li等人提出的b位minwise哈希算法；01基于相似度估值的文本相似性检测方法基于相似度估值的文本相似性检测方法实际上是对VSM（向量空间模型）中词频向量距离的估计，当文档数量大到一定规模时，得到的估计值会越来越准。

由于得到的相似度是估计值，此类方法具有计算速度快的特点，能够有效地解决相似度检测中时间复杂度偏高的问题。

01综上所述，基于相似度估值的文本相似度检测方法可以有效地降低相似度检测的时间复杂度，适合于海量数据环境下的文本相似性检测。

01LDALDA（LatentDirichletAllocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。

所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。

文档到主题服从多项式分布，主题到词服从多项式分布。

01LDALDA是一种非监督机器学习技术，可以用来识别大规模文档集（documentcollection）或语料库（corpus）中潜藏的主题信息。

它采用了词袋（bagofwords）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。

但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。

每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

01LDA生成过程对于语料库中的每篇文档，LDA定义了如下生成过程：

1.对每一篇文档，从主题分布中抽取一个主题；2.从上述被抽到的主题所对应的单词分布中抽取一个单词；3.重复上述过程直至遍历文档中的每一个单词。

01TF-IDFTF-IDF（termfrequencyinversedocumentfrequency）是一种用于信息检索与数据挖掘的常用加权技术。

TF意思是词频（TermFrequency），IDF意思是逆向文件频率（InverseDocumentFrequency）。

01TF-IDFTF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

01TF-IDF01TF-IDFTF-IDF的主要思想是：

如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

02具体报告分析0202022013年目录虽然很仔细，但给人一种很混乱的感觉；2014年目录给人一种很整洁很清晰的感觉；虽然两年的目录基本内容是相同的，但2014年把目录的重点标记出来，给人一种视觉创新。

0202022013年主要包括经济、人员、社会、环境绩效，并放在了指标附录里面，虽然很仔细，但给人一种不是很直观的感觉；2014年主要包括经济、社会、环境绩效指标，并单独作为一部分放在了文章的聚焦2014里面，从而给人们一种很直观的感觉；0202022013年报告将下一年绩效的计划和目标列在每一个单独绩效的下面；2014年报告把下一年的未来展望列为单独一块；虽然两者都在讲下一年的计划和目标，但2013年列的比较分散，焦点不容易让别人把握，而2014年给人一种完整性的感觉，让别人很容易了解到下一年的计划和目标是什么。

展开阅读全文