算法的基本概念.docx

资源描述

算法的基本概念.docx

《算法的基本概念.docx》由会员分享，可在线阅读，更多相关《算法的基本概念.docx（22页珍藏版）》请在冰豆网上搜索。

算法的基本概念.docx

算法的基本概念

第1章概论

1.1信息处理

中文信息处理技术作为计算机技术与中国语言文字相结合的一门交叉学科，随着信息处理技术的发展，近年来得到了快速的发展。

语言文字信息处理作为计算机应用技术的一个重要分支，伴随着计算语言学、心理学、数学以及计算机科学的发展，已经成为新世纪信息技术中的一个重要研究领域。

无论是中文信息处理还是语言文字信息处理，都离不开“信息”的概念。

信息（information）既是一种抽象的概念，又是一个无处不在的实际事件。

控制论创始人维纳（NorbertWiener）认为，信息既不是物质也不是能量，是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总称。

因此，可以认为，信息是人与外界的一种交互通信的信号量。

信息论奠基者ClauseShannon认为，信息就是能够用来消除不确定性的东西，是一个事件发生概率的对数的负值。

该论述第一次阐明了信息的功能和用途，表明了信息是一个可以度量的概念，且指出了信息的度量方法可以依据相应的事件发生的概率进行确定大小。

这样，不同概率实践就包含了不同的影响度（或称信息量）。

RobertM.Losee在1998年11月的《美国社会信息科学学报》上发表了“独立于学科的信息定义”论文，给出的信息定义是“Informationmaybedefinedasthecharacteristicsoftheoutputofaprocess，thesebeinginformativeabouttheprocessandtheinput”。

即信息可以被定义为一个处理过程的特征，这些特征就是输入和处理过程中产生的信息。

换句话说，信息可以理解为由过程所生产的特征值或变量。

该特征值或变量是代表了输入和过程的信息。

信息处理就是对信息的接收、存储、转化、传送和发布等。

随着计算机科学的不断发展，计算机已经从初期的以“计算”为主的一种计算工具，发展成为以信息处理为主的、集计算和信息处理于一体的、与人们的工作、学习和生活密不可分的一个工具。

上述概念或许过于抽象。

其实信息在日常生活中无处不在。

例如，在计算机信息处理领域，从计算机能处理的信息形式看，信息可以分为文本信息、多媒体信息和超媒体信息；从信息的结构化程度看，信息可以分为结构化信息、半结构化信息和非结构化信息。

在信息安全领域，信息有公开的信息、一般保密信息和绝密信息等。

因此，信息与我们的日常工作密不可分。

进一步分析计算机信息处理的过程，可以看到，信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等；信息的存储就是把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理；信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理；信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地；信息的发布就是把信息通过各种表示形式展示出来。

计算机信息处理的过程实际上与人类信息处理的过程一致。

人们对信息处理也是先通过感觉器官获得的，通过大脑和神经系统对信息进行传递与存储，最后通过言、行或其他形式发布信息。

1.2中文信息处理

中文信息处理，从广义来说，由我们祖先创立中文开始，就一直在进行；从狭义来说，从第一部中文字典产生以来，就一直在进行中文信息的分析和综合处理（赵伯璋．计算机中文信息处理．北京：

中国宇航出版社，1987）。

按照《计算机科学技术百科全书》（清华大学出版社，1998）中对计算机中文信息处理的定义为：

用计算机对汉语的音、形、义等语言文字信息进行的加工和操作，包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。

它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。

汉字学和汉语语言学中的词法学、句法学、语义学和语用学给中文信息处理的各个层面提供了可靠的理论依据，而人工智能的知识工程、机器学习、模式识别和神经计算，数学中的模型理论、形式化理论和数理统计等构成了中文信息处理的方法论基础。

简单地说，中文信息处理就是利用计算理论和计算技术处理中国语言文字信息的一门学科，是计算机科学与语言文字学的交叉学科。

汉字是目前世界上仅存的为数不多的几种象形文字之一，也是使用人口最多的一种文字之一。

从文字的创建到文字的发展和演化，这一过程本身也是文字信息处理的过程。

自从有了字典，人们开始对创建的汉字进行音、形、义和用等方面的描述和规范，并根据汉字本身的属性，提出了按字的笔画、部首和读音等多种分类与查找方法，这些分类本身也是中文信息处理的一个部分。

自从第一台电子计算机的诞生，人们一直不断地在尝试着如何利用计算机本身具有的计算速度快、计算精确度高、具有一定的逻辑推理能力等特点，把语言文字的自动识别、语言翻译、语言理解和语言的生成等工作让计算机进行分担。

然而，由于计算机是由西方人发明的，而西文和中文在文字、语言和语用等多个方面存在着很大的差异。

英文中的所有字（word）可以只用26个字母（character或称字符）组成，因此，英文是一种拼音文字。

英文中的句子由一组字组成，字与字之间通过空格（space）进行分隔。

而汉语中汉字是一种象形文字。

汉语中用词（word或phrase）的概念与英文中的字相对应，一个词至少包含一个汉字字符（ideogram）。

为了区分象形文字中的字符和拼音文字中的字符，在英文中分别用ideogram（或ideograph）和character表示。

在拼音文字中，一个字符（或字母）称为一个character，一个单字成为word；但在象形文字中，一个单字或字母是很难区分的，因此当该字表示字母或字符时，通常用ideograph表示，当它作为一个有含义的字时，通常用character或word表示。

例如，当“漢”作为一个象形文字的字母或字符时，就把它称为一个ideograph，因为在日语、韩语、越南语中都有该字符，它仅仅是一个符号，而一旦把它作为汉语中的一个字时，则就称为一个character。

在汉语中，句子是由词构成，但在表面上看，也可以认为是直接由一串汉字字符组成，因为无论是汉字字符之间还是汉字字词之间都不存在空格。

从上述这些简单的中、英文的组织结构的比较中可以看出，语言本身的特点，加上语言的组成和理解方式的不同，导致了用计算机在处理中文信息时，遇到了前所未有的困难。

在信息输入方面，英文的26个字母可以安排在一个QWERT键盘上，而汉字的数量则数以万计，要让计算机能够处理汉字信息，首要任务就是要解决汉字如何进入计算机的问题。

在信息处理过程中，英文字符由于其数量少，因此在存储、处理和传送等方面要占的计算机存储空间和CPU运算时间要少，而汉字恰恰相反。

在信息输出过程，同样由于英文字符数量少以及每个字符所占用的显示或打印空间要比汉字少等的原因，使得输出设备简单，输出速度快，而汉语由于字形复杂，笔画繁琐，字汇量大，导致信息的输出过程复杂。

然而，汉语信息处理的复杂性并不意味着计算机就无法处理它。

我国的语言文字专家和计算机学界紧密合作，从20世纪50年代开始，就从事计算机中文信息处理的理论与技术的研究，特别自20世纪70年代中期开始，我国在计算机信息处理方面投入了大量的研究开发工作。

从汉字的属性分析研究、汉字键盘输入技术、汉字字模技术、汉字输出技术、汉字编码技术、汉字存储、检索和软件汉化到中文篇章识别、汉语语音识别、手写汉字识别、篇章理解与处理、机器翻译、电子照排、中文平台等多方面，取得了一系列的重大成果，为中文信息处理技术的发展奠定了坚实的基础。

由于受计算机本身的运算过度和存储空间等限制，为了使汉字顺利进入计算机，首先要解决的是如何从成千上万个汉字中挑选出一批常用汉字，通过制定相关的字符编码标准，使其能为计算机所处理。

《信息交换用汉字编码字符集——基本集》GB2312-80是国内第一个汉字字符集标准。

其中共收录汉字6763个，其他图形符号682个。

在GB2312-80标准中，把汉字分为常用字（共3755个汉字）和次常用字（共3008个汉字）。

常用汉字按照拼音次序排列，次常用字按照部首笔画排列。

GB2312-80标准实际上给出了在中文信息处理时，计算机所能处理的基本汉字词汇数量以及每个汉字在计算机内部的编码。

汉字的字符编码只有与汉字形信息库对应后，才能在计算机的显示设备和打印设备上输出。

汉字的字形包括宋体、仿宋体、楷体等多种字型。

书刊报纸上使用最多的是宋体字型。

为此，国家质量技术监督局于1985年发布了与GB2312-80相对应的《信息交换用汉字1516点阵字模集》GB/T5199.1-85和《信息交换用汉字1516点阵字模数据集》GB/T5199.2-85，规定了GB2312-80中图形字符的16点阵字型。

汉字字型采用宋体，主要用于汉字信息的显示输出。

同时，国家质量技术监督局还发布了与GB2312-80相对应的《信息交换用汉字2424点阵字模集》GB/T5007.1-85和《信息交换用汉字2424点阵字模数据集》GB/T5007.2-85，规定了GB2312-80中图形字符的24点阵字型，汉字字型采用宋体。

上述16点阵字型和24点阵字型标准于2001年修订，新标准的名称分别为《信息技术汉字编码字符集（基本集）16点阵字型》和《信息技术汉字编码字符集（基本集）24点阵字型》，标准号分别为GB5199-2001（代替原来的标准号GB/T5199.1~5199.2-1985）和GB5007.1-2001（代替原来的标准号GB/T5007.1~5007.2-1985）。

有了这些基本的字符编码集和图形符号集，计算机处理中文信息就显得容易了。

1.3计算机中文信息处理主要研究对象

计算机中文信息处理包含了多个研究层次。

在计算机操作系统方面，需要解决中文信息在计算机内部的表示，中文信息的输入和输出以及中文信息在Internet上的传输等问题，从而使中文信息在计算机中的处理变得可行。

在语言文字方面，需要解决选择（或规范）多少汉字进入计算机，汉字的字形、字型信息的描述等问题。

在应用方面，需要解决包括机器学习、自然语言处理、计算机翻译等一系列与语言信息处理相关的问题。

1．汉字键盘输入技术

汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术。

早期的汉字键盘输入采用模仿西文键盘输入技术，即通过一个大键盘，用大键盘上的一个键对应一个或几个汉字。

由于这种输入技术的汉字输入速度慢，可扩充性差，因此目前基本被淘汰。

取而代之的是汉字的编码输入。

汉字的编码输入就是用西文键盘上的字符、数字等符号对汉字进行编码。

用户通过输入汉字的编码，然后编码通过计算机内部的汉字键盘输入程序把它转换成机器内部代码，从而达到输入汉字的目的。

汉字编码最早可以追溯到通信领域的电报码。

电报码采用4位十进制数把常用的汉字用“0”~“9”十个数字按次序进行逐个编码。

这样，每个汉字就有惟一的代码。

电报码是一种无理编码，用户使用十分不便，只有专业人员才会使用。

王永武先生发明的四角码虽然是一种汉字检字方法，实际上它就是一种汉字的编码方法。

由于四角码是采用“0”~“9”十个数字键对汉字的四个角的形状进行编码，因此这种编码也称“字形码”。

汉语拼音是在汉字注音的基础上发展成的一种用西文字母对汉字进行注音的方法。

即按照每个汉字的读音，对其进行编码，因此这种编码也称为“音码”。

由于学习汉语拼音有利于推广普通话，推广普通话又是我国的国策。

因此，在全国的中小学中，汉语拼音输入法成为了一种最普及的汉字输入法，在所有的键盘输入法中占有率在90%以上。

汉字编码专家在对汉字编码研究后，还提出了可以采用汉字的字音、字形的一部分属性组合成一种或几种编码，这样构成的汉字编码有的称为“音形码”，也有的称为“形音码”。

汉字键盘输入程序把汉字编码通过计算、查表或映射等方式对应到相应的汉字内码

展开阅读全文