ImageVerifierCode 换一换
格式:PPT , 页数:35 ,大小:538.50KB ,
资源ID:13628984      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/13628984.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(文献信息词频分布规律齐普夫定律PPT资料.ppt)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

文献信息词频分布规律齐普夫定律PPT资料.ppt

1、齐普夫把这样一个他认为普遍存在的法则称为“最省力法则”(the Principle of least effort)。,A地,Human Behaviour and the Principle of Least Effort,B地,信息计量学,第一节 齐普夫定律的理论基础-最省力法则,语言文字是人们表达思想进行交流的工具。通过观察分析尽可能将语言中隐含的意义揭示出来,提高和强化语言的表达能力,是词频统计分析的目的所在。任何一种语言,其总词汇量可能很大,但通常使用的词汇却占其中较少一部分,即“常用词”,一些很少被利用的词成为“冷僻词”。对常用词的理解掌握,是学习一门语言的基础。以汉字来说,总数约

2、有五六万字,但通常所用汉字却远远低于这个数。1000个汉字就能满足形成文献90%的需要,2400个汉字满足99%,3800个汉字则满足99.9%(五笔打字)。这表明词汇出现的频率是有规律的。齐普夫定律就是研究文献词频规律的最重要的成果。,第五章 文献信息词频分布规律-齐普夫定律,二、最省力法则与词频分布规律,毛泽东选集(四卷合订本,1967年)总词量约66万,收录2775个汉字。,文献中对词的利用,汉字中,目前人们使用的汉字约有15000个。,国家文字改革委员会(语言文字工作委员会)统计:掌握2851个汉字可以满足99%的阅读需要;掌握5018个汉字可以满足99.9%的阅读需要。,在语言交流过

3、程中,“省力法则”同时体现在说话人和听话人身上。多样化的力说话人希望组成语言的词少,而且一词多义,以节省其精力。单一化的力听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,便于理解。,多样化的力,单一化的力,这两种力的平衡,使词频等级呈双曲线关系。,信息计量学,信息计量学,第二节 齐普夫定律的形成和确立,一、频率词典的出现,1898年,德国学者凯丁编写了世界上第一部频率词典-德语频率词典。这部词典是在内含110万个词汇的文集中,分别统计每个词汇出现的频次,并且按词频高低排列而成的。词典中的每一个词都有两个参数:出现的频次,排列的顺序,他们刻画了一个词在词表中的统计性质。词频字典的大量出

4、现,引起了人们的研究兴趣,词频与顺序之间是否有关,规律是什么呢?,第五章 文献信息词频分布规律-齐普夫定律,南京高等师范到南京大学教授,杰 出的现代儿童教育家 我国近代教育家陈鹤琴(18921982)第一部汉语频率字典语体文应用字汇(1928),从554478个汉字中析出4261个单字。江泽民为陈鹤琴先生雕像墓碑落成题词:“学习爱国老教育家陈鹤琴先生的献身精神和创业精神,深化教育改革,为培育四有新人,振兴中华的大业而奋斗!”,我国词频统计工具,北京语言学院语言教学研究所采用人工与计算机相结合的办法,对近200万字的汉语语料进行词频统计,编制了现代汉语频率词典,收词31159条,这是中国正式出版

5、的第一部汉语频率词典。,我国词频统计工具,信息计量学,二、艾思杜的发现,1916年,法国速记专家艾思杜在其从事的速记文字体系的改善研究工作中,观察到如下事实:假定有一个包括N个词汇的文集,N为充分大。若按这些词汇在文集中出现的频次n递减排列:以频次最高的词,其顺序定为自然数1,频次第二的词,其顺序定为2,依次类推。这样就得到一个词频表:,艾思杜发现词频与词序之积大致为一常数k,即nr*r=k。,第五章 文献信息词频分布规律-齐普夫定律,第二节 齐普夫定律的形成和确立,信息计量学,三、贡东的公式,1928年,美国贝尔电话公司的物理学家贡东发现如下公式:他根据前人关于词频的统计资料,以横坐标表示词

6、的序号的对数lgr,纵坐标表示词的绝对频率的对数lgn,描绘了下图。贡东发现,lgr和lgn的分布关系接近于一条直线AB。,第五章 文献信息词频分布规律-齐普夫定律,C是否为一个常数?,直线AB与横坐标的夹角为,经多次试验=45度。并提出了定量化公式:,第二节 齐普夫定律的形成和确立,信息计量学,第二节 齐普夫定律的形成和确立,四、齐普夫的研究和齐普夫定律的确立,验证了贡东公式的正确性C不是一个常数而是一个参数;取值区间为(0,0.1)最省力法则,第五章 文献信息词频分布规律-齐普夫定律,信息计量学,第三节 齐普夫定律的基本内容,一、齐普夫定律的文字表述,如果把一篇较长文章(约5000字)中每

7、个词出现的频次统计起来,按照高频词在前,低频词在后的递减顺序,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,频次最低的词等级为D。若用Fr表示频次,r表示等级序号,则有:Fr*r=C式中C为常数。这里的常数并不是绝对不变的恒量,而围绕一个中心数值上下波动。,另一种表达(相对频次):fr*r=c,第五章 文献信息词频分布规律-齐普夫定律,信息计量学,二、齐普夫定律的图像描述1,横坐标表示词的等级序号r,纵坐标表示相应的频次Fr。,第五章 文献信息词频分布规律-齐普夫定律,第三节 齐普夫定律的基本内容,信息计量学,二、齐普夫定律的图象描述2,对等级序号r取对数lgr作

8、为横坐标对频次Fr取对数lgf作为纵坐标,第五章 文献信息词频分布规律-齐普夫定律,第三节 齐普夫定律的基本内容,信息计量学,三、齐普夫定律的一般数学形式,第五章 文献信息词频分布规律-齐普夫定律,第三节 齐普夫定律的基本内容,信息计量学,四、齐普夫定律的适用性,对于出现频次特别高的词和特别低的词,并不能完满地反映其分布规律。,第五章 文献信息词频分布规律-齐普夫定律,第三节 齐普夫定律的基本内容,信息计量学,第四节 齐普夫定律的发展,一、朱斯的修正,不仅C是一个参数,而且r的指数也是一个参数。,其中,b,C0,对于r=1,2,3,D,参数b,C要使,第五章 文献信息词频分布规律-齐普夫定律,

9、信息计量学,第四节 齐普夫定律的发展,二、芒代尔布罗的修正,提出了三参数序号分布规律:,a,b,C三参数的含义如下:参数C与出现频率最高的词的概率的大小有关;参数b与高频率词的数量的多少有关;参数a与词的数量有关。,第五章 文献信息词频分布规律-齐普夫定律,信息计量学,第四节 齐普夫定律的发展,二、芒代尔布罗的修正,提出了三参数序号分布规律:,其中,0a0,C0,对于r=1,2,3,D,参数b,c要使,第五章 文献信息词频分布规律-齐普夫定律,信息计量学,第四节 齐普夫定律的发展,三、低频词分布规律-齐普夫第二定律,齐普夫第二定律是阐述低频词频次与词数关系的一个定律。具体描述为:设In表示出现

10、频次为n的词的个数,则In/I1的大小与文献的长度无关,仅取决于频次n即:,高频词与低频词的分界点n为:,第五章 文献信息词频分布规律-齐普夫定律,信息计量学,第五节 齐普夫定律的应用,一、编制词表,20世纪50年代出现了功能强大的标引方法,即叙词标引。叙词标引质量的优劣,查全率、查准率的高低,很大程度取决于叙词的选取。因此在叙词表的构造中,编制多大规模的词表,选用多少词,如何选词都是急需解决的问题。齐普夫定律为叙词的选择提供了依据。研究者通过齐普夫定律的词频分布方法,通过标引试验,找到被标引文献与叙词使用频率的分布特征,确定合乎需要的参数值,挑选符合标准的词编入词表。然后通过标引实践,再不断

11、反复修改,使词表真正趋于规范和实用。,第五章 文献信息词频分布规律-齐普夫定律,信息计量学,第五节 齐普夫定律的应用,二、自动标引,美国IBM公司的卢恩于1958年提出了自动抽词标引的思想:即一篇文章中一个词的出现频率是这个词的重要性的有效测度;有效词在句中的相对位置提供了一种决定句子效果的优良的测定方法。将词按出现频率等级排列,以一定标准排除高频词和低频次,剩下的就是最能代表文献内容的词。基本步骤为:首先标识出组成文献的各个单词;利用停用词表排除文献中的非实义词;统计剩余各词的出现频率;采用一定的加权方法给每个词加权;权值超过一定阈值的词选作标引词。计算机编制文摘:首先决定出文献中的有效词,

12、有效词在句子中的相对位置以及句子中所含的有效词数可被用来确定句子的重要性,符合一定标准的句子皆可选入摘要之中。,第五章 文献信息词频分布规律-齐普夫定律,信息计量学,第五节 齐普夫定律的应用,三、文档的组织,计算机检索首先要建立文献数据库。数据库中每一条记录代表一篇文献,每一条记录又分成几个描述文献特征的不同字段,它们所需的存储单元,必须实现估算出来。如主题字段,就应事先统计每篇文献的平均主题数。在具体检索中,又要建立关于某一特征的倒排挡。一个倒排挡的大小,取决于该特征字段内不同词的多少,以及每个词的出现频率。不管哪种倒排挡,词频出现都不会完全一致,但可以找出其中的规律。国外学者发现,入档词的

13、出现频率近似满足:,且A为常数,近似为0.1。通过计算可求出数据库所需的存储量。,第五章 文献信息词频分布规律-齐普夫定律,信息计量学,第五节 齐普夫定律的应用,四、在科学评价中的应用,第五章 文献信息词频分布规律-齐普夫定律,运用关键词计量分析的方法展示一个学科领域的研究动向。,对2003-2007年医学信息学领域中五年中在医学信息学、医学信息、中华医学图书情报杂志等期刊中发表文献的关键词进行统计分析,归纳出近5年来该领域的研究热点、变化轨迹及研究动向。,如:关键词词频分析透视医学信息学领域研究热点,五、齐夫定律在信息管理工作中的应用,最佳地理位置选择,使得使用者能以最省力的途径方便到达。设

14、计图书馆、信息中心资料库的排架。,教师二万词词书词频法统计词汇的最重要的一部文献美国教育学家桑戴克(E L.Thorndike):Teachers Word Book of 20,000 Words选择出常用的词汇20,000个,依照每个词在这些文献中出现出现的频率分成20级,每级1000个词,用1,2,3.20来标记。6.25万字的儿童文学读物300万字左右的圣经和英国古典文学作品,30万字左右的小学课本,5万字左右的有关烹饪,缝纫,农艺,商业之类的著作9万字左右的新闻报纸5万字左右的书信,共41种不同的文献,六、英语单词的选择,根据Ogden在1967年版的Encyclopaedia Br

15、itanica中对Basic English的定义,对于一个英语国家的成年人,应认识20000个单词,除语言专家外,普通人遇到的单词量一般不超过60000个。问题:假定这60000个单词在文献中出现的频次服从Zipf定律,那么一个人如果认识上述20000个常用单词,即当m=20000时(1/3),对英文读物的词汇覆盖率有多大?,齐夫定律的启示英语单词的选择,由nr=k/r可知,排列在前m个等级词出现的总频次为:,由调和级数求和公式(欧拉公式)可知:,所以近似有:,单词覆盖率:,英语单词的选择问题,设为覆盖率,则从理论上讲,只要熟练掌握1/3的高频词,就可以“读懂”含有6万个不同词(词组)的文献内容的90%。,“四级”考试:4500 77.63%“六级”考试:5500 79.36%PETS5需要 6000 80.12%TOEFL词汇8000 82.3%,大量阅读,熟记高频词,灵活运

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1