海量中文智能分词技术白皮书30.docx

资源描述

海量中文智能分词技术白皮书30.docx

《海量中文智能分词技术白皮书30.docx》由会员分享，可在线阅读，更多相关《海量中文智能分词技术白皮书30.docx（12页珍藏版）》请在冰豆网上搜索。

海量中文智能分词技术白皮书30.docx

海量中文智能分词技术白皮书30

★保密★

技术白皮书

项目名称：

__海量中文智能分词基础件______

开发单位：

_天津海量信息技术有限公司____

序言2

第一章产品概述3

1.1产品简介3

1.2产品的适用范围3

1.3产品结构3

第二章产品技术特点3

2.1分词准确率高4

2.2分词效率高4

2.3功能接口丰富，使用灵活方便4

第三章产品功能介绍4

3.1分词功能模块的介绍4

3.2开发接口4

3.3功能列表5

第四章典型应用7

4.1KM知识管理系统7

4.2搜索引擎7

4.3辞书出版7

4.4信息服务7

4.5网站信息发布7

第五章产品性能指标8

第六章运行环境8

6.1WINDOWS8

6.2LINUX8

6.3UNIX9

第七章成功案例9

7.1商务印书馆9

7.2慧聪搜索引擎9

7.3其他案例10

序言

1.什么是中文分词?

中文分词就是将连续的字序列按照一定的规范切分成词序列的过程。

众所周知，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段可以通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，但是在词这一层上，中文比之英文要复杂的多、困难的多。

2.中文分词的应用

中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。

下面就以信息检索为例来说明中文分词的应用。

通过近几年互联网的发展,互联网上的信息也在急剧膨胀，各类信息混杂在一起，要想充分利用这些信息资源就要对它们进行整理，如果面对中文信息不采用分词技术，那么整理的结果就过于粗糙，而导致资源的不可用，例如：

“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”，如果都作为一个词来处理，结果是检索“和服”的相关信息，会将他们都检索到。

很显然，检索到第一条信息是不恰当的。

通过引入分词技术，可以使机器对信息的整理更准确、更合理，在“制造业和服务业是两个不同的行业”中“和服”不会被当作一个词来处理，那么检索“和服”当然不会将它检索到，使得检索结果更准确，效率也会大幅度的提高。

3.中文分词的意义和作用

要想说清楚中文分词的意义和作用，就不得不提到智能计算技术。

智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。

简单的说，智能计算就是让机器“能看会想，能听会讲”。

要想实现这样的一个目标，首先就要让机器理解人类的语言，只有机器理解了人类的语言文字，才能使人与机器的交流成为可能。

对于自然语言来讲，“词是最小的能够独立活动的有意义的语言成分”，所以对于中文来讲，将词确定下来是理解自然语言的第一步，只有跨越了这一步，中文才能像英文那样过渡到短语划分、概念抽取以及主题分析，以至于自然语言理解，最终达到智能计算的最高境界，实现人类的梦想。

中文分词是中文信息处理系统的基础，有着极其广泛的实际应用。

从基本的输入系统，到文字处理，以及语音合成，文本检索，文本分类，自然语言接口，自动文摘等等，无处不渗透着分词系统的应用。

分词系统的完善与应用，必将促进中文信息处理系统的广泛应用，换言之，也就提高了中文软件对于中文的处理能力，这也将使得计算机用户的日常工作的效率得以提高。

第一章产品概述

1.1产品简介

海量中文智能分词基础件是海量在中文智能分词技术基础之上推出的分词准确、高效、接口方便灵活，便于二次开发的软件包，以及为使软件包在目标系统中实现最优品质而提供的特定服务。

其服务包括：

目标系统架构咨询、辅助开发、技术培训、售后支持等。

海量中文分词融合了多种先进、经典的分词方法，采用独特的算法调度机制，形成复方的分词算法。

海量分词技术很好的解决了中文分词的两大技术难题，即：

歧义切分和新词识别。

分词效果因此而获得大幅提升：

分词准确率达到99.7％（北大语料封闭测试），同时，通过对分词底层代码的优化分词效率达到每分钟2000万汉字（测试环境为：

PC单机CPU：

Amd2500+；内存512MDDR），使得分词真正达到实用化的水平。

海量中文智能分词基础件在保留海量中文分词技术的优秀性能的前提下，提供了方便灵活的调用接口，以便于在其基础上的二次开发。

1.2产品的适用范围

作为中文信息处理的核心和汉语自然语言理解的基础，海量中文智能分词基础件有着广泛的应用前景。

主要应用领域有：

1）信息检索领域

如：

全文检索、主题检索

2）汉字处理领域

如：

智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换

3）语音处理领域

如：

语音合成、语音识别

4）内容识别与分析领域

如：

信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘

5）自然语言理解领域

如：

机器翻译、自然语言接口

1.3产品结构

第二章产品技术特点

多年以来，中文分词技术一直是阻碍中文信息处理技术进一步发展的瓶颈。

因为词是能独立活动的有意义的最小语言单位。

在词的界定方面，中文不同于西文之处在于，西文词之间是有自然分隔符的，而中文却不具备，需要通过一定的技术手段进行处理，才能将词准确的分离出来，这就是分词技术。

所以，西文基本上不用经过分词就可以直接进入到检索技术、短语划分、语义分析等更高一层的技术领域，而对于中文，只有越过这个技术瓶颈问题，分词的准确率足够高、分词速度足够快，中文的信息处理技术才有可能和西文的信息处理技术在一个起跑线上。

分词是中文信息处理从字符处理水平向语义处理水平提升的关键技术之一，是中文智能计算技术的基础。

目前，中文分词技术普遍存在分词准确率低和分词效率不高两方面的问题，海量中文智能分词技术在这两方面都有所突破。

通过研究发现，中文自动分词准确率低主要受以下几方面因素的困扰：

1）词表收录

2）分词规范

3）新词识别

4）歧义切分

从纯技术角度来看，新词识别和歧义切分是困扰分词的两大技术难点。

海量中文智能分词采用复方概念平衡各算法，使海量分词在大规模语料测试中的准确率达到了99.7%（北大语料封闭测试），分词效率2000万字/分钟（测试环境为：

PC单机CPU：

Amd2500+；内存512MDDR），该指标目前处于国内领先水平，已经达到实用要求。

正因如此，海量承担了2000年度国家863计划课题——“智能信息内容分析方法研究”。

海量在中文分词技术基础之上推出了海量中文智能分词基础件，作为国内最优秀的中文智能分词产品，海量中文智能分词基础件具有以下特点：

准切分准确率99.7%（北大语料封闭测试）

快2000万字/分钟（测试环境为：

PC单机CPU：

Amd2500+；内存512MDDR）

活丰富的功能接口，使用灵活方便，例如：

系统外挂分词规范，用户可自定义。

2.1分词准确率高

海量分词算法借鉴复方的概念，集成各种算法解决同一个问题，发展了受限的隐马尔科夫模型,使知识库的冗余大幅降低。

同时，在歧义切分和新词识别上投入了很大的力量。

海量分词综合采用了最大匹配法、逆向最大匹配法、单扫描分词法、有穷多层次列举法、二次扫描法、全切分、字标注的分词方法等等多种分词方法，规则和统计相结合，最终是多种切分方案的选优，从而获得较为准确的分词结果。

通过在北大语料库中的评测，其分词准确率达到99.7％。

2.2分词效率高

为了使分词能够达到实际应用的目的，海量对于该产品进行了效率优化工作。

主要体现在：

1）对于分词算法进行优化，特别是调度算法的优化设计，可以有效的降低计算的复杂度；

2）对于分词基础件进行代码级的优化，从程序的逻辑设计以及执行步骤上进行优化，关键环节用汇编进行了翻写，从而可以最大程度的提升分词效率。

通过以上的效率优化工作，分词效率达到每分钟2000万字，其测试环境为：

PC单机CPU：

Amd2500+；内存512MDDR

2.3功能接口丰富，使用灵活方便

海量中文智能分词基础件提供了丰富的接口，以满足不同用户的需求。

主要接口包括：

分词初始化，码制选择，是否检索优化，是否需要格式化，分词模式，加载用户自定义词典以及其他附加信息的输出等等。

通过这些接口的组合使用，可以满足目前所有的分词调用需求。

第三章产品功能介绍

3.1分词功能模块的介绍

该产品的主要模块是中文分词模块，该模块可以实现将字序列的文本转化为词序列的文本。

3.2开发接口

海量中文智能分词功能基础件对外提供了四类接口：

1.基本接口

基本接口是使用本软件包所需的基本功能函数。

海量中文智能分词功能基础件提供的基本接口有四个：

1）HLInitSeg：

初始化海量分词系统，加载分词用数据，可在ANSI和UNICODE版本中使用。

2）HLUnInitSeg：

卸载海量中文智能分词基础件，释放分词所占资源。

3）HLCreateSegHandle：

创建自动中文分词结果句柄。

4）HLCloseSegHandle：

关闭分词结果句柄，释放分词结果所占资源。

2.分词接口

分词接口是用来对指定字符串进行分词的接口。

海量中文智能分词功能基础件提供的分词接口有两个：

1）HLSegment：

对指定字符串进行分词。

2）HLSegmentEx：

对指定字符串进行分词。

3.获取分词结果接口

获得分词结果接口是用于对分词后的结果进行获取的相关接口。

海量中文智能分词功能基础件提供的获取分词结果接口有三个：

1）HLGetResultCnt：

得到分词结果中的词的个数。

2）HLGetResultBuff：

得到分词结果的字符串空间。

3）HLGetMin：

得到指定的分词结果。

4.其他接口

本软件包提供了用户自定义词典和英文通配符查找的相关接口。

海量中文智能分词功能基础件提供的其他接口有两个：

1）HLLoadUserDict：

加载用户自定义词典。

2）HLUnloadUserDict：

卸载用户自定义词典。

3.3功能列表

分词模式：

为适应各种不同的需求，海量中文智能分词基础件目前提供三种分词结果模式：

大模式、中模式和小模式。

其中，小模式结果仅提供了词串信息；中模式结果提供了词串、词性、词号等结果信息；大模式结果不仅提供了词串、词性、词号信息，还提供了句子号、段号等信息。

在创建分词句柄时可以选择不同的模式，本文档只提供小模式，定义如下：

宏定义

SEGMENT_RESULT_MODE_NIN

小模式，只输出字符串指针数组

附加计算标志：

附加计算标志是为适应不同需求的用户而定，可以实现面向全文检索的分词优化。

当不进行附加计算（标志取0值）时，只进行词形的切分，不作其他方面的计算。

详细信息参看下表：

取值

说明

0（默认值）

不进行附加计算

HL_ECF_OPT_SEARCH

检索优化

HL_ECF_OPT_SEARCH_EX

检索优化并转换相应码制

格式化：

对分词结果进行格式化是指将分词结果的英文和数字的全角字符转变成半角字符，将大写英文字符转化成小写英文如：

ＡＢＣ转化后的结果为abc。

在创建分词句柄（HLCreateSegHandle）时可以传入参数bIsFormat=true来进行格式化。

分词支持的码制：

海量分词软件包支持多种码制，包括：

GB18030、BIG5、UNICODE。

以代码页的形式实现，在调用分词接口时传入不同的参数即可实现不同码制的分词。

代码页标志

取值

码制

CODE_PAGE_GB18030

54936

GB18030

CODE_PAGE_BIG5

950

BIG5

CODE_PAGE_UNICODE

100

UNICODE

代码页定义

码制和分词模式的关系：

在不使用附加计算标志HL_ECF_OPT_SEARCH的情况下，码制和分词模式的关系如下：

小模式

输入码制

输出码制

GB18030

UNICODE

BIG5

在使用附加计算标志HL_ECF_OPT_SEARCH的情况下，在三种模式下无论输入是什么码制，输出都是GB18030。

第四章典型应用

4.1KM知识管理系统

知识管理需要实现分析、辨认和调整文字、语音等各种信息，能够自动进行分类、链接和个性化地传递信息。

海量中文智能分词基础件可应用于知识管理系统，辅助信息进行集成、分类，使知识管理系统成为强大的、综合性的信息源。

4.2搜索引擎

搜索引擎的准确率一直是用户关注的。

然而多数搜索引擎并未给使用者提供准确的结果。

运用分词技术可以使其自动对请求做分词和断句处理，提高搜索的准确率，去处错误信息。

4.3辞书出版

辞书的编纂是一项浩繁的工程，需要投入大量的人力物力。

其中，语料采集、标注入库、提取书证最为烦琐。

以前，这些工作都是依靠人工，因此，辞书的出版缺乏时效性，严重滞后于语言的发展，无法适应信息化社会的需要。

另一方面，大量用有经验的编辑人员从事简单的重复劳动，造成人力资源的浪费。

采用分词技术使辞书出版不再需要大量的人力与物力，降低了成本。

语料采集、标注入库、提取书证由基于分词技术的软件完成，提高了整理速度，保证了时效性，同时也提高了准确率。

4.4信息服务

随着信息技术的不断发展，特别是互联网应用的飞速普及。

海量、无序的信息需要有效的管理、发布、查询工具。

使用基于分词技术的搜索能够帮助可以迅速实现对海量数据的管理和快速查询，以其领先的技术和卓越的性能，成为当之无愧的海量信息管理专家。

4.5网站信息发布

使用基于分词技术的自动分类技术可方便对大量的资料进行查找与管理，实现网站信息资料的挖掘，帮助网站为访问者提供方便、准确的分类服务。

网站发布信息量越大，自动分类越能体现它的作用,网站的信息发布越便捷。

第五章产品性能指标

版本与性能：

针对不同的用户我们将本产品分为五个版本。

其价格参见《海量分词版本与价格》。

适用范围

词表

支持

码制支持

准确率

速度

占用资源

版本1

搜索引擎专用

词表

GB18030

99.7%

33.3万字/秒

版本2

大型服务级

词表

GB18030

99.7%

11.1万字/秒

版本3

企业应用级

词表

GB18030

99.7%

3.70万字/秒

版本4

研究应用级

词表

GB18030

99.7%

1.23万字/秒

版本5

个人应用级

词表

GB18030

99.7%

0.41万字/秒

定制词表：

客户可根据应用范围选择需要增加的词表。

这些词表包括：

中国分类主题词表、中国商用关键词表、行业词表、港台用语词表。

定制码制：

根据需求，用户可定制需要增加的码制。

可增加的码制有Unicode、BIG5。

第六章运行环境

6.1WINDOWS

环境要求

⏹软件开发环境：

VC++6.0

⏹软件支持环境：

Windows98第二版/WindowsMe及其以上版本

推荐使用Windows2000及其以后版本

⏹硬件支持环境：

最低配置：

128M内存，PII400

⏹提供的开发接口：

C/C++

6.2LINUX

环境要求：

本产品在以下系统环境中测试通过：

*gcc:

Configuredwith:

../configure--prefix=/usr--mandir=/usr/share/man--infodir=/usr/share/info--enable-shared--enable-threads=posix--disable-checking--host=i386-redhat-linux--with-system-zlib--enable-__cxa_atexit

*Threadmodel:

posix

gccversion3.220020903（RedHatLinux8.03.2-7）

*os:

RedHatLinuxrelease8.0（Psyche）

Kernel2.4.18-14onani686

6.3UNIX

本软件在以下系统环境中测试通过：

*gcc:

Readingspecsfrom/usr/local/lib/gcc-lib/sparc-sun-solaris2.8/2.95.3/specs

gccversion2.95.320010315（release）

*os:

SunOS发行版5.8Generic_108528_01

第七章成功案例

7.1商务印书馆

商务印书馆是中国近现代出版事业中历史最悠久的出版机构,以翻译介绍外国哲学、社会科学的学术著作和编纂出版语文工具书为主要任务，兼及研究著作、教材、普及读物等。

2001年海量依靠优秀的中文智能分词技术、中文自动词性标注技术、全文检索技术，中标《商务印书馆辞书语料库及编篡系统》。

为商务印书馆开发《语料自动分词及标注系统》和《语料库全文检索系统》。

系统实施后可以显著缩短辞书编纂周期，提高编辑工作效率。

海量技术从各个方面全面满足了《商务印书馆辞书语料库及编篡系统》对于分词、标注、检索的需求。

作为国内最著名的辞书出版社，商务印书馆选择海量技术证明了海量在中文自动分词、自动标注和全文检索领域技术的领先地位。

7.2慧聪搜索引擎

海量自2003年1月起与慧聪国际软件合作，为其搜索引擎I-Search2000提供海量中文分词核心技术，全面提升I-Search2000检索准确率和检索效率。

慧聪国际软件，隶属于慧聪国际资讯集团，从事Internet前沿信息技术的开发与应用。

I-Search2000Internet搜索引擎是慧聪国际软件新一代的综合搜索引擎。

目前I-Search2000正在为新浪、搜狐、千龙新闻网、中国网等多家国内知名网站提供搜索服务。

海量与慧聪国际软件合作，利用领先的海量中文智能分词技术，使I-Search2000得到全面提升，成为最优秀的中文搜索引擎之一。

1）海量准确的中文分词，使I-Search2000有效避免了搜索引擎在中文检索中不分词或分词不准所造成的误检。

2）海量分词技术的使用，使I-Search2000实现了基于词的中文检索，检索效率大大提高。

3）使用海量分词技术使I-Search2000索引空间膨胀率大幅度降低，节约存储资源的同时提高了检索速度。

慧聪国际软件对于海量中文分词技术给予了高度的评价，并与海量建立了长期稳定的合作关系。

7.3其他案例

Autonomy、DESE、WISA、中国大百科全书出版社、3721（DBAPP数据库加速产品）、方正研究院（数字图书馆产品）、天津日报、DoNews站内检索、CSDN站内检索、中华书局。

展开阅读全文