ImageVerifierCode 换一换
格式:DOCX , 页数:89 ,大小:33.19KB ,
资源ID:17674486      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/17674486.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(汉字字频统计方法的改进的策略文档格式.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

汉字字频统计方法的改进的策略文档格式.docx

1、沙宗元在文字学术语规范研究中收了“字频”这个词条,他给出的定义是:“某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。这个“字频”也指汉字字频。两家的定义大体不错,但表述不够严密。第一,用来作为字频统计的文字资料不一定是经抽样取得的,如史记的字频统计这类专书字频统计是根据特定目的选取的,而非“经抽样取得”的。“经抽样取得”不能作为字频统计的必要条件。第二,“总字数”的说法比较含混,应该改作“总字次”。第三,“样本总字数”的“样本”表意不明确。综合学术界的研究,汉字字频可以定义为:个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。 对使用中的汉字进行字频统

2、计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。汉字字频统计是汉字研究中的一项具有实用意义的重要工作。二、汉字字频统计的主要成果 以往的汉字字频统计与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。字频统计一般分综合字频统计及分类字频统计两类。其代表性成果主要有以下几项:现代汉字综合字频统计的主要成果有:1.汉字频度表,此表于1976年12月由“七四八”工程查频组完成。本次字频统计使用的语料时间范围为1973-1975年,语料内容包括gongx

3、ue/科学技术、文学Art/艺术、Politics/政治理论和新闻通讯四类,统计方式为手工操作。备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。2.汉字频率表,此表包含在北京语言学院语言教学研究所编的现代汉语频率辞典中,1986年6月由北京语言学院出版社出版。本次字频统计使用的语料时间范围较多选用20世纪40年代至70年代的作品,语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料和各种体裁的文学作品四类,统计方式采用人工和pc/计算机相结合。选用语料180万字次,统计得出“不同汉字4574个”。(参考该书“前言”和编纂说明)3.现代汉语字频统计表,此表由北京

4、航空学院计算机科学与工程系和国家语言文字委员会汉字处研制,于1992年1月由语文出版社出版,出版署名单位是国家语言文字工作委员会和国家标准局。本次字频统计使用的语料时间范围为1977-1982年,语料内容包括lixue/自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料13800万字次,抽取出的统计样本语料11873029字次,统计得出汉字7754个。(参考该书说明)4.报纸、广播电视、network/网络用字总表,本表收录在“中国语言生活状况报告”课题组编中国语言生活状况报告(2005)中,报告于2006年9月由商务印书馆出版。中国语言生活状况报告(2005)是由国家语委首次

5、向社会发布的年度语言生活报告,其中的报纸、广播电视、网络用字总表是2005年年度用字字频统计表。该表语料时间范围为2005年,语料介质包括报纸、广播电视和网络,统计手段采用计算机,共选择892034个文本文件,包括732143010字次,统计得出字种数8128个。(该书把字种界定为“这里的字种,指字形不同的汉字。) 古代文献使用汉字的综合字频统计成果主要有古籍汉字字频统计,该书由北京书同文数字化技术有限公司编写,2008年7月由商务印书馆出版。本书统计的语料为dianzijixie/电子版四库全书和四部丛刊,统计方式完全采用计算机自动统计,使用语料8亿字次,统计得出汉字30127个。(在该书收

6、录的“大规模古籍汉字用字统计报告”中“统计结果汇总与初步分析”一节中介绍该书统计出的总字数时说:“1.文渊阁四库全书汉字总字数:29088字;2.四部丛刊汉字用字总字数:27606字;3.四库全书与四部丛刊汉字用字合计:30127字。但是该书古籍字频统计表的顺序号的最后一号是30136,比30127多出9个数字。查古籍字频统计表中含有部分空格和非汉字符号,如八卦卦符、古琴书中的指符等,甚至有新式标点和网址符。因此,本书给出的总字数并不准确,只是个大致的数字。古代文献专书使用汉字字频统计的成果主要有史记字频研究,李波著史记字频研究,2006年3月由商务印书馆出版。该书的字频统计以汉代司马迁所撰史

7、记一书的全部文字为对象,选择中华书局标点本130卷史记三家注本作底本,统计方式采用计算机手段。全书计572864字次,统计得出4932个字。上述字频统计的成果在汉字理论研究和现实应用等方面起了重要作用。理论研究方面,如周有光在字频统计成果的基础上发现了汉字效用递减率?。王凤阳在字频统计成果的基础上发现了汉字常用字笔画递减率?社会应用方面,如1980年由国家标准总局发布,1981年5月1日实施的信息交换用汉字编码字符集?基本集是在汉字频度表的基础上研制完成的。1988年1月26日由国家语言文字工作委员会、国家jiaoyu/教育委员会联合发布的现代汉语常用字表的研制参考了汉字频度表(常用字部分41

8、52字)、社会科学、自然科学综合汉字频度表(常用字部分3500字)和汉字频率表(4574字)?1988年3月25日由国家语言文字工作委员会、中华人民共和国新闻出版署联合发布的现代汉语通用字表也参考了上述字频统计成果。这些字频统计的结果和在字频统计成果基础上研制的字表对汉字教学、汉字水平测试、汉字识别、汉字信息处理、汉字字典编纂、汉字规范等工作都起到了重要的参考作用。三、汉字字频统计存在的主要问题 尽管汉字字频统计取得了诸多重要的研究成果,但是,由于受汉字自身的复杂性以及汉字信息处理技术的局限性等因素的影响,目前的汉字字频统计还存在很多问题,影响了字频统计的质量。其问题主要表现在以下几个方面:1

9、.近些年来多数汉字字频统计依据的是电子语料库,这些电子语料库建库目标主要是为语言研究服务的,加之计算机字库收字的限制,在把纸质文本转换成电子文本的过程中未能保持文字使用的原始状态,影响到统计结果的客观性。比如,1956年1月28日国务院全体会议第23次会议通过了关于公布汉字简化方案的决议,1956年1月31日人民日报全文发表了国务院的关于公布汉字简化方案的决议和汉字简化方案,在此之前报刊图书主要使用繁体字(偶尔也用简体字)。1955年12月文化部和文改会联合发布了第一批异体字整理表(以下简称一异表),要求从1956年2月起在全国实施,这之前异体字未经整理。1977年12月20日人民日报、光明日

10、报、解放军报及各省、市、自治区一级报纸发表中国文字改革委员会第二次汉字简化方案(草案),12月21日人民日报开始试用第二次汉字简化方案(草案)第一表的简化字,1978年7月停止试用这批简化字,1977年12月21日至1978年7月之间人民日报等曾经用过“二简”的字。而北京语言学院语言教学研究所1986年编的汉字频率表使用了1956年1月31日前的资料,如1951年1月31日的人民日报、1955年出版的田汉剧作选、1954年至1955年在独幕剧选上发表的何求的新局长到来之前、1952年人民文学出版社出版的茅盾的子夜的第五、第十九章、1955年人民文学出版社出版的老舍的骆驼祥子第十六章、1953年

11、人民出版社出版的巴金的家第一、第三十八章、1955年人民文学出版社出版的巴金的春第一章等,却没有出现繁体字?使用了1956年2月一异表实施前的大量资料,却没有出现异体字。以1951年1月31日的人民日报为例,该日报原版中有繁体字“對”、“装”、“數”、“會”等,而汉字频率表有“对(频序60、频次5138)”、“装(频序435、频次841)”、“数(频序286、频次1325)”、“会(频序32、频次7075)”,而没有“對”、“装”、“數”、“會”等。该日报纸中有第一批异体字整理表中被淘汰的异体“遊(旧字形)”、“鎻”、“週(旧字形)”、“誌”等,而汉字频率表有“游”、“周”、“志”等正体,有“

12、鎻”的正体“鎖”的简化字“锁”,而没有“遊”、“鎻”、“週”、“誌”等。该日报原版中文字有旧字形,而汉字频率表中的字均为新字形。推测汉字频率表的研制者在测查文本时按当时的规范修改了原始文本,用规范字替换了不规范的字。这种测查结果显然不能准确反映社会用字的实际情况。又,国家语言资源监测与研究中心编中国语言生活状况报告(2005)(下编)的调查报告中明确指出:“报纸文本是从网络下载的,没有与纸质版本作比较。”又说:“本次统计不包括以下两种字符:(1)汉字部件。共有25个,计529字次,主要出现在报纸语料或网络语料中。包含以下两类情况中:?讲解汉字中用到的偏旁部首,如言语的“语”这个字旁边是个“讠”

13、字旁。这种部件共出现四个:亻、辶、宀、讠。拼字,大部分出现于人名、地名,如讲述人刘亻思亻思,14岁,树德试验中学、本市宝坻区林亭口镇帐房瞿阝村农民、广东中山南(艹朗)(上下结构)镇横门港码头彩旗飞扬、20岁的广西姑娘小(崩刂)昨天回广州了。(2)乱码和无法显示的字符。这些字符共出现765个,计23221字符次,占整个语料字符数的0.0026%。根据作者的自述,本次统计不是依据原始的纸质文本,而是依据电子文本,并且电子文本并未与纸质文本校对,因此,电子文本转录错误的未加改正。受转录者使用的计算机编码字库的限制,字库中没有的字,在电子文本中或用拼字表示,或用替代符号,或根本无法显示,均不能统计。(

14、举例中出现的偲、蓈、剻四个字在报刊、广播电视、网络用字总表中也都未收录。“传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。第三,“样本总字数”的“样本”表意不明确。对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。2.汉字频率表,此表包含在北京语言学院语言教学研究所编的现代汉语频率辞典中,1986年6月由北

15、京语言学院出版社出版。(参考该书“前言”和编纂说明)3.现代汉语字频统计表,此表由北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制,于1992年1月由语文出版社出版,出版署名单位是国家语言文字工作委员会和国家标准局。电子版四库全书和四部丛刊,统计方式完全采用计算机自动统计,使用语料8亿字次,统计得出汉字30127个。全书计572864字次,统计得出4932个字。社会应用方面,如1980年由国家标准总局发布,1981年5月1日实施的信息交换用汉字编码字符集?尽管汉字字频统计取得了诸多重要的研究成果,但是,由于受汉字自身的复杂性以及汉字信息处理技术的局限性等因素的影响,目前的汉字字频统

16、计还存在很多问题,影响了字频统计的质量。比如,1956年1月28日国务院全体会议第23次会议通过了关于公布汉字简化方案的决议,1956年1月31日人民日报全文发表了国务院的关于公布汉字简化方案的决议和汉字简化方案,在此之前报刊图书主要使用繁体字(偶尔也用简体字)。而北京语言学院语言教学研究所1986年编的汉字频率表使用了1956年1月31日前的资料,如1951年1月31日的人民日报、1955年出版的田汉剧作选、1954年至1955年在独幕剧选上发表的何求的新局长到来之前、1952年人民文学出版社出版的茅盾的子夜的第五、第十九章、1955年人民文学出版社出版的老舍的骆驼祥子第十六章、1953年人

17、民出版社出版的巴金的家第一、第三十八章、1955年人民文学出版社出版的巴金的春第一章等,却没有出现繁体字?以1951年1月31日的人民日报为例,该日报原版中有繁体字“對”、“装”、“數”、“會”等,而汉字频率表有“对(频序60、频次5138)”、“装(频序435、频次841)”、“数(频序286、频次1325)”、“会(频序32、频次7075)”,而没有“對”、“装”、“數”、“會”等。“本次统计不包括以下两种字符:拼字,大部分出现于人名、地名,如讲述人刘亻思亻思,14岁,树德试验中学、本市宝坻区林亭口镇帐房瞿阝村农民、广东中山南(艹朗)(上下结构)镇横门港码头彩旗飞扬、20岁的广西姑娘小(崩刂)昨天回广州了。历史时期内经抽样取得的文字资料里,每一个汉字的使用次数与抽样资料总字数的比例。字频统计一般分综合字频统计及分类字频统计两类。备选语料3亿多字次,选用语料2160多万字次,统计得出

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1