信息时代汉字的标准化和共通化doc.docx

上传人:b****5 文档编号:11843174 上传时间:2023-04-05 格式:DOCX 页数:9 大小:22.55KB
下载 相关 举报
信息时代汉字的标准化和共通化doc.docx_第1页
第1页 / 共9页
信息时代汉字的标准化和共通化doc.docx_第2页
第2页 / 共9页
信息时代汉字的标准化和共通化doc.docx_第3页
第3页 / 共9页
信息时代汉字的标准化和共通化doc.docx_第4页
第4页 / 共9页
信息时代汉字的标准化和共通化doc.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

信息时代汉字的标准化和共通化doc.docx

《信息时代汉字的标准化和共通化doc.docx》由会员分享,可在线阅读,更多相关《信息时代汉字的标准化和共通化doc.docx(9页珍藏版)》请在冰豆网上搜索。

信息时代汉字的标准化和共通化doc.docx

信息时代汉字的标准化和共通化doc

信息时代汉字的标准化和共通化

信息时代汉字的标准化和共通化

冯志伟各节目录:

1、汉字效用递减律2、四种汉字代码3、《信息交换用汉字编码字符集-基本集》4、《15×16、24×24、32×32汉字点阵字模集及字模数据集》5、汉字的共通化问题6、中日韩汉字统一编码7、重大成果

一、汉字效用递减律

7000通用汉字覆盖率和不足率

汉字数增加字数覆盖率不足率

100090%10%

2400140099%1%

3800140099.9%0.1%

5200140099.99%0.01%

6600140099.999%0.001%

从中可以看出,1000个汉字的覆盖率为90%,以后每增加1400字,覆盖率百分比的最后一个9字之后便增加一个9字。

覆盖率达到99.999%的6600个汉字,就构成了现代通用汉字的主体,覆盖率达到99.9%的3800个汉字,就包含了全部现代常用汉字。

随着汉字频度的减少,其效用递减。

二、四种汉字代码

1、汉字输入码:

为了将汉字输入计算机而编制的代码。

2、汉字内部码:

计算机内部处理汉字信息时所采用的代码,其形式取决于机器本身。

为了提高机器处理汉字效率,汉字内部码一般采用机器原有的代码结构,码长都尽可能短,而且等长。

许多汉字计算机,在输入汉字之后都要进行一次将汉字输入码变成汉字内部码的转换。

3、汉字输出码:

计算机将汉字信息处理的结果输出打印或显示时所用的代码,一般也取决于具体的机器或设备。

4、汉字交换码:

用于计算机之间汉字信息交换的代码。

它处于一台计算机的出口与另一台计算机的入口之间。

除了保证一字一码之外,还要与有关的国际标准和国家标准保持一致。

一台具体的计算机的交换码可以和输入码、内部码、输出码一致,也可以不一致,这同样取决于汉字信息处理系统设计与应用的具体情况。

但是,在一般情况下,一台计算机的输入码、内部码和输出码是随着计算机的不同而不同的,而交换码就必须整齐统一,才便于与其它的计算机进行信息交换。

返回到目录

三、《信息交换用汉字编码字符集-基本集》(GB2312-80)

汉字标准交换码共分两级。

第一级为常用字,有3755字,按汉语拼音字母顺序排列,第二级为次常用字,有3008字,按部首排列。

字体以中国文字改革委员会1964年编印的《简化汉字总表》以及中华人民共和国文化部和中国文字改革委员会联合发布的《第一批异体字整理表》为准。

字形以中华人民共和国文化部和中国文字改革委员会1965年联合发布的《印刷通用汉字字形表》为准。

除汉字之外,该标准还收集了一般符号202个(其中包括间隔、标点符号、运算符号、单位符号、制表符号等),序号60个,数字22个,拉丁字母52个(包括大小写),日文假名169个(包括大小写),汉语拼音符号26个,汉字注音符号37个,连同汉字一起,共有7445个图形符号。

这个代码表最多可收8836个图形字符,现在尚留有一些空白位置,供进一步扩充之用。

繁体字和简体字对应编码

六个字符集基本集(GB2312-80)

第一辅助集(GB12345-90)

第二辅助集(GB7589-87,收简体字7237个)

第三辅助集(GB/T13131-91)

第四辅助集(GB7590-87,收简体字7039个)

第五辅助集(GB/T13132-91)。

基本集和第二、第四辅助集是简体字集,第一、第三、第五辅助集是繁体字集。

在这六个字符集中,简体字与繁体字存在着明确的一一对应关系:

基本集中的简体字与第一辅助集中的繁体字对应,第二辅助集中的简体字与第三辅助集中的繁体字对应,第四辅助集中的简体字与第五辅助集中的繁体字对应,并且对应的简体字和繁体字在相应的字符集中同码。

个别的汉字在简繁体之间存在着一对多的关系,作为特殊情况处理。

返回到目录

四、《15×16、24×24、32×32汉字点阵字模集及字模数据集》

所谓点阵字形,就是以点的形式来表现的字符或汉字的形态。

15×16点阵字形,可以表示《信息交换用汉字编码字符集·基本集》中的绝大部分汉字。

由于15×16的点阵字形只能表示横向笔画和竖向笔画都不超过八笔的汉字。

如果一个汉字的横向笔画或者竖向笔画超过了八笔(如"量、酬"等字),在点阵字模就容纳不下。

在《基本集》中,这样的汉字共有138个,只好压缩笔画做变通处理。

15×16点阵字形适于屏幕显示,作校对之用。

24×24点阵字形,可以全部表示《基本集》中的6763个汉字的笔形结构,用不着压缩笔画,而且能够保持横细竖粗的宋体风格,适用于针式打印、喷墨打印,是一种很有使用价值的点阵字形。

32×32点阵字形比24×24点阵字形更能体现宋体风格,能完整地表现汉字的笔锋,使撇笔和捺笔自然婉转,舒畅流利,字体质量较高。

高精度点阵汉字标准

GB/T14242-1993信息交换用汉字64×64点阵黑体字模集及数据集

GB/T14243-1993信息交换用汉字64×64点阵楷体字模集及数据集

GB/T14244-1993信息交换用汉字64×64点阵仿宋体字模集及数据集

GB/T14245-1993信息交换用汉字64×64点阵宋体字模集及数据集

GB/T14717-1993信息交换用汉字128×128点阵宋体字模集及数据集

GB/T14718-1993信息交换用汉字128×128点阵黑体字模集及数据集

GB/T13443-1992信息交换用汉字128×128点阵楷体字模集及数据集

GB/T13444-1992信息交换用汉字128×128点阵仿宋体字模集及数据

GB/T14719-1993信息交换用汉字256×256点阵宋体字模集及数据集

GB/T14720-1993信息交换用汉字256×256点阵黑体字模集及数据集

GB/T13445-1992信息交换用汉字256×256点阵楷体字模集及数据集

GB/T13446-1992信息交换用汉字256×256点阵仿宋体字模集及数据集

矢量汉字的字模集及数据集

GB/T13844-1992图形信息交换用矢量汉字单线宋体字模集及数据集

GB/T13845-1992图形信息交换用矢量汉字宋体字模集及数据集

GB/T13846-1992图形信息交换用矢量汉字仿宋体字模集及数据集

GB/T13847-1992图形信息交换用矢量汉字楷体字模集及数据集

GB/T13848-1992图形信息交换用矢量汉字黑体字模集及数据集

返回到目录

五、汉字的共通化问题

在汉字文化圈内,使用汉字的地区和国家还有台湾、韩国、日本、新加坡、马来西亚。

除了新加坡和马来西亚同中国大陆一样使用简体字之外,这些地区和国家使用的汉字并不完全相同。

在信息化的时代,汉字的差异给信息交流带来不便,这就有必要研究汉字的共通化问题。

研究汉字共通化问题,首先要尽快摸清现行汉字差异的程度,分析产生差异的原因,在共识的基础上加强合作,确定整理汉字的统一标准,制定各方都能接受的、符合汉字演变规律的科学方案,首先在信息处理领域内实现汉字的统一编码,然后再逐渐地统一字形,在国际范围内促进汉字的规范化和标准化。

中国制订的《信息处理文本通信用编码字符集》(GB8586)

该标准的字符集由GB2312-80(基本集)和一个汉字通信子集组成。

汉字通信子集收集的汉字、表示日期和时间的图形字符等共705个,其中有:

第二辅助集中的汉字520个,第四辅助集中的汉字92个,表示日期和时间的图形字符69个,《第一批异体字整理表》淘汰的用于人名、地名等的异体字、汉字部件等23个。

通信子集只限于在通信网中使用,与其它系统进行数据交换时仍要转换为汉字标准交换码。

台湾制定的汉字字符集标准

《中文资讯交换码CCCII》,

《通用汉字标准交换码TCA-CNS11643》。

CCCII字符集

常用字集收4808个常用字,作为CCCII第一册,发布于1980年4月;

备用字集收6025个次常用字、5364个罕用字、2112个异体字以及3531个其它资讯用字,共17032字,作为CCCII的第二册,发布于1981年2月;

罕用字集收12924个罕用字、314个次常用字及7345个其它资讯用字,共20583字,作为CCCII第三册,发布于1987年5月;

异体字集收异体字11517个,发布于1981年2月。

全部汉字首先按《康熙字典》部首排序,其次按部首外笔画数排序,最后按笔顺排序。

TCA-CNS11643

共收汉字13051个,于1986年发布。

整个编码空间分16个字面:

第一字面收常用汉字5401个,包括CCCII中的常用字4808个、中小学课本上的常用字587个以及6个异体字;

第二字面收次常用汉字7650个;

第三至十一字面为标准保留区;

第十二至十六字面为用户定义区,第十四字面已收罕用字6319个。

每个字面上的汉字按先笔画后部首的顺序排列。

JISX0208-1983和JISX0212-1990(日本汉字字符集)

JISX0208-1983是日本国家交换码标准,共收字符6877个,分为84区

1至15区是拼音字符及符号区,收一般图形字符、数字、拉丁字母、日本平假名、片假名、希腊字母、西里尔字母、制表符号等共524个字符;

16至84区是汉字区,收日本汉字6353个,汉字分为两级,一级汉字2965个,按音排列,二级汉字3388个,按形排列。

另有1959个空白码位是保留区。

JISX0208-1990

.JISX0212-1990是日本的第二个汉字编码字符集标准,作为日本汉字交换码辅助集。

该字符集共收图形字符6067个,其中非汉字字符266个,日本汉字5801个,按部首排序。

另有1829个空白码位作保留区,940个空白码位作用户自定义之用。

韩国字符集

字符集中同时收汉字字符和谚文字符。

韩国于1987年制定了韩国标准编码字符集KSC5601-1987,共有8224个字符

1至15区是拼音文字和符号区,收986个字符;

16至40区是谚文字符区,收谚文字符2350个;

42至93区是汉字字符区,收汉字4888个,其中有268个多音字分配了一个以上的码位,出现重复编码;

41区和94区共188个码位,是用户自定义区。

韩国于1991年制定了编码字符集的辅助集KSC5657-1991,增收汉字2856个。

中日韩汉字字符集比较

中国国家语言文字工作委员会曾将GB2312和JIS0208中的汉字做过比较。

GB汉字6763个,JIS汉字6353个,它们之间相同的汉字为1851个,相近的汉字为1393个,相同和相近的汉字总数为3244个。

从GB方面看,有48%的一致,从JIS方面看,有51%的一致。

有人曾将韩国文教部规定的大中学用汉字1800字与GB12345中的繁体字做过比较,发现1800字中的1791个汉字均可在GB12345中找到,占99.5%。

这些比较研究说明,中、日、韩的汉字标准,存在着大面积的相互覆盖,它们为中、日、韩汉字的统一编码提供了相当充足的事实根据。

《信息技术通用多八位编码字符集(UCS)》

国际标准化组织(ISO)于1984年开始研究、制定《信息技术通用多八位编码字符集(UCS)》国际标准,即ISO/IEC10646。

1993年5月,该标准的第一部分:

体系结构与基本多文种平面(即ISO/IEC10646.1)正式发布。

前后经历了九年的时间。

它对UCS的总体体系结构和基本多文种平面(BasicMultilingualPlane,简称BMP)做了规定。

在BMP内,A区用于字母文字、音节文字和各种符号的编码;

I区用于中、日、韩(CJK)统一的表意文字编码;

O区留作未来标准化之用;

R区作为BMP的限制使用区,用于专用字符、变形显现和兼容字符的编码。

返回到目录

六、中日韩汉字统一编码

I区中的表意文字采用中、日、韩汉字统一编码方式;

以现有的各标准字符集为源字符集,将其中的汉字按统一的认同原则进行认同和甄别后,生成涵盖各源字符集;

按东亚著名的四大字典(《康熙字典》、《大汉和字典》、《汉语大字典》、《大字源》)的页码/字位综合排序的CJK汉字统一字汇和字序,构成UCS中的表意文字部;

共包括20902个汉字字符。

国际标准字符集编码原则

第一,按文字(script)编码,而不是按语言、国度、地域和专业编码:

在汉字文化圈内,汉字经历了许多世纪的字形演变和字义漂移,它们原来的形状和含义都已经发生了变化,但是,它们在字形、字音和基本含义方面仍然存在着相似性,它们事实上就是一种超越语言的"广义汉字",因此,统一编码时不考虑语言、国度、地域和专业的不同。

第二,不允许(或尽量避免)重复编码。

中、日、韩汉字的统一编码遵循了这两条原则,这是解决表意文字编码时大字量小空间矛盾的最佳方案。

源字符集的确定

统一编码是在中日韩原有的汉字编码字符集的基础之上进行的,为中日韩汉字统一编码所选用的源字符集有十三个,包含六万多个已经编码的汉字。

这十三个源字符集是:

类集号字符集标准字符个数

GG0GB2312-80(基本集)6763G1GB12345-90(辅一)独立字2352G3G3GB/T13131-91(辅三)7237G5GB/T13132-91(辅五)7039G7G7现代汉字通用字表(7000字表)独立字41+1G8GB8565-89(文本通信用)独立字290TT1台湾TCA-CNS11643/第1字面5401+9T2台湾TCA-CNS11643/第2字面7650Te台湾TCA-CNS11643/第14字面6319+239+10JJ0日本JISX0208-906353+1J1日本JISX0212-905801KK0韩国KSC5601-874888K1韩国KSC5657-912856

此外,还收纳了少量的香港用字(58个)、韩国文吏读字(92字)和台湾CCCII中的独特字(200多个)。

汉字认同

汉字认同要处理横跨几个标准的变体汉字,在认同过程中,要力求保留任一标准之内允许的相同变异误差,当两个字形只具有微小的差异时,只赋以一个代码,否则,就赋以不同的代码。

汉字认同规则在相当程度上考虑了中国对通用汉字编码的提议ISO/TC1/WG2/N489和日本JIS的出版规则。

汉字认同规则

汉字认同指的是表义文字字形(ideograph)的认同,而不是字音、字义的认同,也不是具体造型(font)的强求一律,字形结构相同,只是笔画小有差异的字,就予以认同所谓"笔画小有差异"是指以下的情况

笔形变化的差异;

笔画类型的差异;

笔画曲率的差异;

笔画长度的差别;

断笔与连笔;

笔画增减一笔。

偏旁部首有细微差别(不包括简化字的偏旁)的字,予以认同;

因简化造成的字形差异,不认同;

同一字因结构方式不同而形成的变体,不认同;

不作垂直认同,在同一集属下(例如,同在G属下,或同在K属下),即使字形非常接近,也不可认同,因为它们在同一集属下,已经分别编码。

非同源字(non-cognate)不认同,也就是说,在文字的演变过程中互不相干的汉字不认同。

汉字认同中充分考虑到了中国大陆的简体字,对于目前正在开发中的GB标准辅助集具有现代简体字的对应字,分别给予编码,共2000字左右。

认同的结果表明,中、日、韩各源字符集之间,的确存在着大面积的相互覆盖。

J、K与C(G,T)间不同的汉字只有744个。

"认同"是一种求大同存小异的正确途径,它既未修改也未曾消灭任何文字,因而也未触动任何国家和地区的文字政策,不涉及文化与法律的问题。

字汇的确定

经过认同与甄别,六万多个源字符集中的汉字,可以归纳为28000多个"认同汉字",其中20902个汉字已经正式收入国际标准,成为UCS的表意文字区(I区)。

其余的8000个汉字,是G3、G5、Te中的独特字,现已作为扩充需求之一提交给国际标准化组织。

已经收入UCS的20902个CJK汉字,从中国大陆的角度看,有17124个汉字来源于GB;从中国台湾的角度看,有17258个汉字来源于TCA-CNS;从日本的角度看,有12157个汉字来源于JIS;从韩国的角度看,有7476个汉字来源于KSC。

CJK汉字统一编码完全可以满足中国(包括大陆和台湾)、日本和韩国汉字信息处理的需要。

这是国际大协作的重大成果,是国际信息处理中的重要里程碑。

字符的排序与字码的确定

字符的排序

如何决定CJK统一编码汉字的字序,曾一度成为一个很大的难题,这是因为:

第一,在不同的国家和地区,汉字的读音差别很大,即使在同一国家和地区,也存在许多一字多音的汉字,因此,按读音排序是绝对不行的。

第二,如果按部首排序,虽然是一种可能的方式,但是,不同国家和地区出版的字典,它们之间的部首集、部首序和汉字的入部规则,甚至笔画的顺序都存在着差异。

因此,完全按部首排序也有很大困难。

经过各国专家的研究和协商,他们本着求同存异精神,首先追求共识而不是追求完善,最终确定了按东亚著名的四大字典的页码/字位综合排序的方案。

字码的确定:

CJK统一编码的汉字,在UCS中的表意文字区(I区)中连续编码,码位从4E00到9FA5。

返回到目录

七、重大的成果

中日韩汉字统一编码结束了长期以来汉字编码标准各自为政的局面,解决了困扰汉字信息处理技术进一步发展的一个重大瓶颈问题,它不仅可以用于中、日、韩汉字的代码表示(representation),而且,还可以用于汉字的传输(transmission)、交换(interchange)、处理(processing)、存储(storage)、输入(input)和显现(presentation)。

这个统一编码的国际标准,对于促进汉字信息处理的深入发展,进而推进整个信息产业的进步必然产生深远的影响。

与CJK有关的中国国家标准

GB13000.1-1993《信息技术通用多八位编码字符集(UCS)第一部分:

体系结构与基本多文种平面》;

GB16793-1997《信息技术通用多八位编码字符集(I区)汉字24点阵字型宋体》;

GB16791-1997《信息技术通用多八位编码字符集(I区)汉字48点阵字型第1部分宋体》,GB18030-2000《出版用汉字字符集》(含2.7万汉字)。

谢谢!

Thankyou!

冯志伟教授是著名的计算语言学家,国家语言文字工作委员会语言文字应用研究所研究员,中国语文现代化学会副会长、中国应用语言学会常务理事冯志伟教授的个人主页:

"七"乐无穷,尽在新浪新版博客,快来体验啊~请点击进入~

特别声明:

1:

资料来源于互联网,版权归属原作者

2:

资料内容属于网络意见,与本账号立场无关

3:

如有侵权,请告知,立即删除。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工作范文 > 行政公文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1