汉字字频统计方法的改进的策略.docx

上传人:b****4 文档编号:4735482 上传时间:2022-12-08 格式:DOCX 页数:89 大小:33.19KB
下载 相关 举报
汉字字频统计方法的改进的策略.docx_第1页
第1页 / 共89页
汉字字频统计方法的改进的策略.docx_第2页
第2页 / 共89页
汉字字频统计方法的改进的策略.docx_第3页
第3页 / 共89页
汉字字频统计方法的改进的策略.docx_第4页
第4页 / 共89页
汉字字频统计方法的改进的策略.docx_第5页
第5页 / 共89页
点击查看更多>>
下载资源
资源描述

汉字字频统计方法的改进的策略.docx

《汉字字频统计方法的改进的策略.docx》由会员分享,可在线阅读,更多相关《汉字字频统计方法的改进的策略.docx(89页珍藏版)》请在冰豆网上搜索。

汉字字频统计方法的改进的策略.docx

汉字字频统计方法的改进的策略

汉字字频统计方法的改进的策略

一、汉字字频统计的概念

在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。

冯志伟指出:

“传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。

因此,从使用的角度来看,汉字还具有第四个要素——字频。

”?

顾名思义,字频就是字的使用频度。

苏培成在《dangdai/">现代汉字学纲要》(增订本)给字频下的定义是:

“字频就是汉字的使用频度,是指在一定的lishi/">历史时期内经抽样取得的文字资料里,每一个汉字的使用次数与抽样资料总字数的比例。

”?

他所说的“字频”,就是指汉字字频。

沙宗元在《文字学术语规范研究》中收了“字频”这个词条,他给出的定义是:

“某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。

”?

这个“字频”也指汉字字频。

两家的定义大体不错,但表述不够严密。

第一,用来作为字频统计的文字资料不一定是经抽样取得的,如《史记》的字频统计这类专书字频统计是根据特定目的选取的,而非“经抽样取得”的。

“经抽样取得”不能作为字频统计的必要条件。

第二,“总字数”的说法比较含混,应该改作“总字次”。

第三,“样本

总字数”的“样本”表意不明确。

综合学术界的研究,汉字字频可以定义为:

个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。

对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。

汉字字频统计是汉字研究中的一项具有实用意义的重要工作。

二、汉字字频统计的主要成果

以往的汉字字频统计与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。

字频统计一般分综合字频统计及分类字频统计两类。

其代表性成果主要有以下几项:

现代汉字综合字频统计的主要成果有:

1.《汉字频度表》,此表于1976年12月由“七四八”工程查频组完成。

本次字频统计使用的语料时间范围为1973-1975年,语料内容包括gongxue/">科学技术、文学Art/">艺术、Politics/">

政治理论和新闻通讯四类,统计方式为手工操作。

备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。

2.《汉字频率表》,此表包含在北京语言学院语言教学研究所编的《现代汉语频率辞典》中,1986年6月由北京语

言学院出版社出版。

本次字频统计使用的语料时间范围较多选用20世纪40年代至70年代的作品,语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料和各种体裁的文学作品四类,统计方式采用人工和pc/">计算机相结合。

选用语料180万字次,统计得出“不同汉字4574个”。

(参考该书“前言”和编纂说明)3.《现代汉语字频统计表》,此表由北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制,于1992年1月由语文出版社出版,出版署名单位是国家语言文字工作委员会和国家标准局。

本次字频统计使用的语料时间范围为1977-1982年,语料内容包括lixue/">自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料13800万字次,抽取出的统计样本语料11873029字次,统计得出汉字7754个。

(参考该书说明)4.《报纸、广播电视、network/">网络用字总表》,本表收录在“中国语言生活状况报告”课题组编《中国语言生活状况报告(2005)》中,《报告》于2006年9月由商务印书馆出版。

《中国语言生活状况报告(2005)》是由国家语委首次向社会发布的年度语言生活报告,其中的《报纸、广播电视、网络用字总表》是2005年年度用字字频统计表。

该表语料时间范围为2005年,语料介质包括报纸、广播电视和网络,统计手段采用计算机,共选择892034个文本文件,包括732143010字次,统计得出字种数8128个。

(该书把字种界定为“这里的字种,指字形不同的汉字。

”?

古代文献使用汉字的综合字频统计成果主要有《古籍汉字字频统计》,该书由北京书同文数字化技术有限公司编写,2008年7月由商务印书馆出版。

本书统计的语料为dianzijixie/">电子版《四库全书》和《四部丛刊》,统计方式完全采用计算机自动统计,使用语料8亿字次,统计得出汉字30127个。

(在该书收录的“大规模古籍汉字用字统计报告”中“统计结果汇总与初步分析”一节中介绍该书统计出的总字数时说:

“1.文渊阁《四库全书》汉字总字数:

29088字;2.《四部丛刊》汉字用字总字数:

27606字;3.《四库全书》与《四部丛刊》汉字用字合计:

30127字。

”?

但是该书《古籍字频统计表》的顺序号的最后一号是30136,比30127多出9个数字。

查《古籍字频统计表》中含有部分空格和非汉字符号,如八卦卦符、古琴书中的指符等,甚至有新式标点和网址符@。

因此,本书给出的总字数并不准确,只是个大致的数字。

古代文献专书使用汉字字频统计的成果主要有《史记字频研究》,李波著《史记字频研究》,2006年3月由商务印书馆出版。

该书的字频统计以汉代司马迁所撰《史记》一书的全部文字为对象,选择中华书局标点本130卷《史记》三家注本作底本,统计方式采用计算机手段。

全书计572864字

次,统计得出4932个字。

上述字频统计的成果在汉字理论研究和现实应用等方面起了重要作用。

理论研究方面,如周有光在字频统计成果的基础上发现了汉字效用递减率?

王凤阳在字频统计成果的基础上发现了汉字常用字笔画递减率?

社会应用方面,如1980年由国家标准总局发布,1981年5月1日实施的《信息交换用汉字编码字符集?

基本集》是在《汉字频度表》的基础上研制完成的。

1988年1月26日由国家语言文字工作委员会、国家jiaoyu/">教育委员会联合发布的《现代汉语常用字表》的研制参考了《汉字频度表》(常用字部分4152字)、《社会科学、自然科学综合汉字频度表》(常用字部分3500字)和《汉字频率表》(4574字)?

1988年3月25日由国家语言文字工作委员会、中华人民共和国新闻出版署联合发布的《现代汉语通用字表》也参考了上述字频统计成果。

这些字频统计的结果和在字频统计成果基础上研制的《字表》对汉字教学、汉字水平测试、汉字识别、汉字信息处理、汉字字典编纂、汉字规范等工作都起到了重要的参考作用。

三、汉字字频统计存在的主要问题

尽管汉字字频统计取得了诸多重要的研究成果,但是,由于受汉字自身的复杂性以及汉字信息处理技术的局限性等因素的影响,目前的汉字字频统计还存在很多问题,影响

了字频统计的质量。

其问题主要表现在以下几个方面:

1.近些年来多数汉字字频统计依据的是电子语料库,这些电子语料库建库目标主要是为语言研究服务的,加之计算机字库收字的限制,在把纸质文本转换成电子文本的过程中未能保持文字使用的原始状态,影响到统计结果的客观性。

比如,1956年1月28日国务院全体会议第23次会议通过了《关于公布〈汉字简化方案〉的决议》,1956年1月31日《人民日报》全文发表了国务院的《关于公布〈汉字简化方案〉的决议》和《汉字简化方案》,在此之前报刊图书主要使用繁体字(偶尔也用简体字)。

1955年12月文化部和文改会联合发布了《第一批异体字整理表》(以下简称《一异表》),要求从1956年2月起在全国实施,这之前异体字未经整理。

1977年12月20日《人民日报》、《光明日报》、《解放军报》及各省、市、自治区一级报纸发表中国文字改革委员会《第二次汉字简化方案(草案)》,12月21日《人民日报》开始试用《第二次汉字简化方案(草案)》第一表的简化字,1978年7月停止试用这批简化字,1977年12月21日至1978年7月之间《人民日报》等曾经用过“二简”的字。

而北京语言学院语言教学研究所1986年编的《汉字频率表》使用了1956年1月31日前的资料,如1951年1月31日的《人民日报》、1955年出版的《田汉剧作选》、1954年至1955年在《独幕剧选》上发表的何求的《新局长到来之前》、1952年

人民文学出版社出版的茅盾的《子夜》的第五、第十九章、1955年人民文学出版社出版的老舍的《骆驼祥子》第十六章、1953年人民出版社出版的巴金的《家》第一、第三十八章、1955年人民文学出版社出版的巴金的《春》第一章等,却没有出现繁体字?

使用了1956年2月《一异表》实施前的大量资料,却没有出现异体字。

以1951年1月31日的《人民日报》为例,该日报原版中有繁体字“對”、“装”、“數”、“會”等,而《汉字频率表》有“对(频序60、频次5138)”、“装(频序435、频次841)”、“数(频序286、频次1325)”、“会(频序32、频次7075)”,而没有“對”、“装”、“數”、“會”等。

该日报纸中有《第一批异体字整理表》中被淘汰的异体“遊(旧字形)”、“鎻”、“週(旧字形)”、“誌”等,而《汉字频率表》有“游”、“周”、“志”等正体,有“鎻”的正体“鎖”的简化字“锁”,而没有“遊”、“鎻”、“週”、“誌”等。

该日报原版中文字有旧字形,而《汉字频率表》中的字均为新字形。

推测《汉字频率表》的研制者在测查文本时按当时的规范修改了原始文本,用规范字替换了不规范的字。

这种测查结果显然不能准确反映社会用字的实际情况。

又,国家语言资源监测与研究中心编《中国语言生活状况报告(2005)》(下编)的《调查报告》中明确指出:

“报纸文本是从网络下载的,没有与纸质版本作比较。

”又说:

“本次统计不包括以

下两种字符:

(1)汉字部件。

共有25个,计529字次,主要出现在报纸语料或网络语料中。

包含以下两类情况中:

?

讲解汉字中用到的偏旁部首,如‘言语的“语”这个字旁边是个“讠”字旁’。

这种部件共出现四个:

亻、辶、宀、讠。

?

拼字,大部分出现于人名、地名,如‘讲述人刘亻思亻思,14岁,树德试验中学’、‘本市宝坻区林亭口镇帐房瞿阝村农民’、‘广东中山南(艹朗)(上下结构)镇横门港码头彩旗飞扬’、‘20岁的广西姑娘小(崩刂)昨天回广州了’。

(2)乱码和无法显示的字符。

这些字符共出现765个,计23221字符次,占整个语料字符数的0.0026%。

”?

根据作者的自述,本次统计不是依据原始的纸质文本,而是依据电子文本,并且电子文本并未与纸质文本校对,因此,电子文本转录错误的未加改正。

受转录者使用的计算机编码字库的限制,字库中没有的字,在电子文本中或用拼字表示,或用替代符号,或根本无法显示,均不能统计。

(举例中出现的偲、、蓈、剻四个字在《报刊、广播电视、网络用字总表》中也都未收录。

一、汉字字频统计的概念

在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。

冯志伟指出:

“传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际

过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。

因此,从使用的角度来看,汉字还具有第四个要素——字频。

”?

顾名思义,字频就是字的使用频度。

苏培成在《dangdai/">现代汉字学纲要》(增订本)给字频下的定义是:

“字频就是汉字的使用频度,是指在一定的lishi/">历史时期内经抽样取得的文字资料里,每一个汉字的使用次数与抽样资料总字数的比例。

”?

他所说的“字频”,就是指汉字字频。

沙宗元在《文字学术语规范研究》中收了“字频”这个词条,他给出的定义是:

“某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。

”?

这个“字频”也指汉字字频。

两家的定义大体不错,但表述不够严密。

第一,用来作为字频统计的文字资料不一定是经抽样取得的,如《史记》的字频统计这类专书字频统计是根据特定目的选取的,而非“经抽样取得”的。

“经抽样取得”不能作为字频统计的必要条件。

第二,“总字数”的说法比较含混,应该改作“总字次”。

第三,“样本总字数”的“样本”表意不明确。

综合学术界的研究,汉字字频可以定义为:

个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。

对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级

的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。

汉字字频统计是汉字研究中的一项具有实用意义的重要工作。

二、汉字字频统计的主要成果

以往的汉字字频统计与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。

字频统计一般分综合字频统计及分类字频统计两类。

其代表性成果主要有以下几项:

现代汉字综合字频统计的主要成果有:

1.《汉字频度表》,此表于1976年12月由“七四八”工程查频组完成。

本次字频统计使用的语料时间范围为1973-1975年,语料内容包括gongxue/">科学技术、文学Art/">艺术、Politics/">

政治理论和新闻通讯四类,统计方式为手工操作。

备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。

2.《汉字频率表》,此表包含在北京语言学院语言教学研究所编的《现代汉语频率辞典》中,1986年6月由北京语言学院出版社出版。

本次字频统计使用的语料时间范围较多选用20世纪40年代至70年代的作品,语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料和各种体裁的文学作品四类,统计方式采用人工和pc/">计算机相结合。

选用语料180万字次,统计得出“不同汉字4574个”。

(参考该书“前言”和编纂说明)3.《现代汉语字频

统计表》,此表由北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制,于1992年1月由语文出版社出版,出版署名单位是国家语言文字工作委员会和国家标准局。

本次字频统计使用的语料时间范围为1977-1982年,语料内容包括lixue/">自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料13800万字次,抽取出的统计样本语料11873029字次,统计得出汉字7754个。

(参考该书说明)4.《报纸、广播电视、network/">网络用字总表》,本表收录在“中国语言生活状况报告”课题组编《中国语言生活状况报告(2005)》中,《报告》于2006年9月由商务印书馆出版。

《中国语言生活状况报告(2005)》是由国家语委首次向社会发布的年度语言生活报告,其中的《报纸、广播电视、网络用字总表》是2005年年度用字字频统计表。

该表语料时间范围为2005年,语料介质包括报纸、广播电视和网络,统计手段采用计算机,共选择892034个文本文件,包括732143010字次,统计得出字种数8128个。

(该书把字种界定为“这里的字种,指字形不同的汉字。

”?

古代文献使用汉字的综合字频统计成果主要有《古籍汉字字频统计》,该书由北京书同文数字化技术有限公司编写,2008年7月由商务印书馆出版。

本书统计的语料为dianzijixie/">电子版《四库全书》和《四部丛刊》,统计

方式完全采用计算机自动统计,使用语料8亿字次,统计得出汉字30127个。

(在该书收录的“大规模古籍汉字用字统计报告”中“统计结果汇总与初步分析”一节中介绍该书统计出的总字数时说:

“1.文渊阁《四库全书》汉字总字数:

29088字;2.《四部丛刊》汉字用字总字数:

27606字;3.《四库全书》与《四部丛刊》汉字用字合计:

30127字。

”?

但是该书《古籍字频统计表》的顺序号的最后一号是30136,比30127多出9个数字。

查《古籍字频统计表》中含有部分空格和非汉字符号,如八卦卦符、古琴书中的指符等,甚至有新式标点和网址符@。

因此,本书给出的总字数并不准确,只是个大致的数字。

古代文献专书使用汉字字频统计的成果主要有《史记字频研究》,李波著《史记字频研究》,2006年3月由商务印书馆出版。

该书的字频统计以汉代司马迁所撰《史记》一书的全部文字为对象,选择中华书局标点本130卷《史记》三家注本作底本,统计方式采用计算机手段。

全书计572864字次,统计得出4932个字。

上述字频统计的成果在汉字理论研究和现实应用等方面起了重要作用。

理论研究方面,如周有光在字频统计成果的基础上发现了汉字效用递减率?

王凤阳在字频统计成果的基础上发现了汉字常用字笔画递减率?

社会应用方面,如1980年由国家标准总局发布,1981年5月1日实施的《信

息交换用汉字编码字符集?

基本集》是在《汉字频度表》的基础上研制完成的。

1988年1月26日由国家语言文字工作委员会、国家jiaoyu/">教育委员会联合发布的《现代汉语常用字表》的研制参考了《汉字频度表》(常用字部分4152字)、《社会科学、自然科学综合汉字频度表》(常用字部分3500字)和《汉字频率表》(4574字)?

1988年3月25日由国家语言文字工作委员会、中华人民共和国新闻出版署联合发布的《现代汉语通用字表》也参考了上述字频统计成果。

这些字频统计的结果和在字频统计成果基础上研制的《字表》对汉字教学、汉字水平测试、汉字识别、汉字信息处理、汉字字典编纂、汉字规范等工作都起到了重要的参考作用。

三、汉字字频统计存在的主要问题

尽管汉字字频统计取得了诸多重要的研究成果,但是,由于受汉字自身的复杂性以及汉字信息处理技术的局限性等因素的影响,目前的汉字字频统计还存在很多问题,影响了字频统计的质量。

其问题主要表现在以下几个方面:

1.近些年来多数汉字字频统计依据的是电子语料库,这些电子语料库建库目标主要是为语言研究服务的,加之计算机字库收字的限制,在把纸质文本转换成电子文本的过程中未能保持文字使用的原始状态,影响到统计结果的客观性。

比如,1956年1月28日国务院全体会议第23次会议通过了

《关于公布〈汉字简化方案〉的决议》,1956年1月31日《人民日报》全文发表了国务院的《关于公布〈汉字简化方案〉的决议》和《汉字简化方案》,在此之前报刊图书主要使用繁体字(偶尔也用简体字)。

1955年12月文化部和文改会联合发布了《第一批异体字整理表》(以下简称《一异表》),要求从1956年2月起在全国实施,这之前异体字未经整理。

1977年12月20日《人民日报》、《光明日报》、《解放军报》及各省、市、自治区一级报纸发表中国文字改革委员会《第二次汉字简化方案(草案)》,12月21日《人民日报》开始试用《第二次汉字简化方案(草案)》第一表的简化字,1978年7月停止试用这批简化字,1977年12月21日至1978年7月之间《人民日报》等曾经用过“二简”的字。

而北京语言学院语言教学研究所1986年编的《汉字频率表》使用了1956年1月31日前的资料,如1951年1月31日的《人民日报》、1955年出版的《田汉剧作选》、1954年至1955年在《独幕剧选》上发表的何求的《新局长到来之前》、1952年人民文学出版社出版的茅盾的《子夜》的第五、第十九章、1955年人民文学出版社出版的老舍的《骆驼祥子》第十六章、1953年人民出版社出版的巴金的《家》第一、第三十八章、1955年人民文学出版社出版的巴金的《春》第一章等,却没有出现繁体字?

使用了1956年2月《一异表》实施前的大量资料,却没有出现异体字。

以1951年1月31日的《人

民日报》为例,该日报原版中有繁体字“對”、“装”、“數”、“會”等,而《汉字频率表》有“对(频序60、频次5138)”、“装(频序435、频次841)”、“数(频序286、频次1325)”、“会(频序32、频次7075)”,而没有“對”、“装”、“數”、“會”等。

该日报纸中有《第一批异体字整理表》中被淘汰的异体“遊(旧字形)”、“鎻”、“週(旧字形)”、“誌”等,而《汉字频率表》有“游”、“周”、“志”等正体,有“鎻”的正体“鎖”的简化字“锁”,而没有“遊”、“鎻”、“週”、“誌”等。

该日报原版中文字有旧字形,而《汉字频率表》中的字均为新字形。

推测《汉字频率表》的研制者在测查文本时按当时的规范修改了原始文本,用规范字替换了不规范的字。

这种测查结果显然不能准确反映社会用字的实际情况。

又,国家语言资源监测与研究中心编《中国语言生活状况报告(2005)》(下编)的《调查报告》中明确指出:

“报纸文本是从网络下载的,没有与纸质版本作比较。

”又说:

“本次统计不包括以下两种字符:

(1)汉字部件。

共有25个,计529字次,主要出现在报纸语料或网络语料中。

包含以下两类情况中:

?

讲解汉字中用到的偏旁部首,如‘言语的“语”这个字旁边是个“讠”字旁’。

这种部件共出现四个:

亻、辶、宀、讠。

?

拼字,大部分出现于人名、地名,如‘讲述人刘亻思亻思,14岁,树德试验中学’、‘本市宝

坻区林亭口镇帐房瞿阝村农民’、‘广东中山南(艹朗)(上下结构)镇横门港码头彩旗飞扬’、‘20岁的广西姑娘小(崩刂)昨天回广州了’。

(2)乱码和无法显示的字符。

这些字符共出现765个,计23221字符次,占整个语料字符数的0.0026%。

”?

根据作者的自述,本次统计不是依据原始的纸质文本,而是依据电子文本,并且电子文本并未与纸质文本校对,因此,电子文本转录错误的未加改正。

受转录者使用的计算机编码字库的限制,字库中没有的字,在电子文本中或用拼字表示,或用替代符号,或根本无法显示,均不能统计。

(举例中出现的偲、、蓈、剻四个字在《报刊、广播电视、网络用字总表》中也都未收录。

一、汉字字频统计的概念

在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。

冯志伟指出:

“传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。

因此,从使用的角度来看,汉字还具有第四个要素——字频。

”?

顾名思义,字频就是字的使用频度。

苏培成在《dangdai/">现代汉字学纲要》(增订本)给字频下的定义是:

“字频就是汉字的使用频度,是指在一定的lishi/">历史时期内经抽样取得的文字资料里,每一个汉字

的使用次数与抽样资料总字数的比例。

”?

他所说的“字频”,就是指汉字字频。

沙宗元在《文字学术语规范研究》中收了“字频”这个词条,他给出的定义是:

“某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。

”?

这个“字频”也指汉字字频。

两家的定义大体不错,但表述不够严密。

第一,用来作为字频统计的文字资料不一定是经抽样取得的,如《史记》的字频统计这类专书字频统计是根据特定目的选取的,而非“经抽样取得”的。

“经抽样取得”不能作为字频统计的必要条件。

第二,“总字数”的说法比较含混,应该改作“总字次”。

第三,“样本总字数”的“样本”表意不明确。

综合学术界的研究,汉字字频可以定义为:

个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。

对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。

汉字字频统计是汉字研究中的一项具有实用意义的重要工作。

二、汉字字频统计的主要成果

以往的汉字字频统计与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。

字频统计一般分综合

字频统计及分类字频统计两类。

其代表性成果主要有以下几项:

现代汉字综合字频统计的主要成果有:

1.《汉字频度表》,此表于1976年12月由“七四八”工程查频组完成。

本次字频统计使用的语料时间范围为1973-1975年,语料内容包括gongxue/">科学技术、文学Art/">艺术、Politics/">

政治理论和新闻通讯四类,统计方式为手工操作。

备选语料3亿多字次,选用语料2160多万字次,统计得出

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1