英文易读度测量程序开发探索.docx

资源描述

英文易读度测量程序开发探索.docx

《英文易读度测量程序开发探索.docx》由会员分享，可在线阅读，更多相关《英文易读度测量程序开发探索.docx（18页珍藏版）》请在冰豆网上搜索。

英文易读度测量程序开发探索.docx

英文易读度测量程序开发探索

晏生宏（重庆大学外语学院，重庆400044）黄莉（重庆师范大学外语学院，重庆400030）

摘要：

英文易读度是指英语文本易于阅读和理解的程度或性质，是应用语言学的重要概念。

正确地测量易读度一直是研究者努力的目标。

作者通过将应用语言学知识和计算机软件知识相结合，开发了一套适于我国大学英语教学的易读度测量程序—ERMS。

以FleschReadingEase为计算公式，以CET-4和CET-6词汇为基础建立词库,并且能测量词汇密度使ERMS成为准确方便地测量英文易读度工具。

关键词:

易读度；测量;易读度公式；易读度测量程序

EnglishReadabilityMeasurementProgramming

Abstract：

Englishreadabilityreferstoeasewithwhichatextisreadandcomprehended.Itisanimportantconceptioninappliedlinguistics。

Researchersaretryingtomeasurereadabilityaccurately。

AuthormakesanattempttodevelopanEnglishreadabilitymeasurementprogramnamedERMS.FleschReadingEase，thewordbankonthebasisofCET-4andCET-6wordlistandmeasurementoflexicaldensitymakeERMSmostapplicableforcollegeEnglishteachinginChinaandaconveniettoolformeasuringreadability.

Keywords：

Readability；Measurement;Readabilityformula;Readabilitymeasurementprogram

一、前言

英文易读度（readability），又称易读性或可读性,指英语文本易于阅读和理解的程度或性质。

英文易读度取决于多种因素，主要包括：

（1）词长;

（2）不同词的比例；（3）词汇的抽象程度即概念荷载量;（4）代词数；（5）介词数；（6）词缀数；（7）依据词汇表所确定的难词数;（8）句长;（9）事实密度及其不常见性；（10）插图数；（11）趣味性及作者的写作目的；（12）材料的组织结构及印刷版式；（13）内容之间的相互关系；（14）文本的文化荷载；（15）读者的背景知识及阅读动机等等（Betts，1949;Dechant&Smith,1961/1977）。

作为应用语言学的一个重要概念,易读度一直是应用语言学家们研究的重要内容之一。

易读度研究对于阅读理论，阅读教学（如阅读材料的选择、阅读心理研究材料的选择和阅读教学方法的选择等），阅读教材的编排和评估以及阅读测试具有重要意义。

另外，易读度研究对于作者、读者、图书管理员、教师和出版商具有实用意义。

二、英文易读度研究综述

根据研究角度和研究重心不同，易读度研究可分为三类：

第一类是以Tinker，Williamson和Spencer为代表的研究者以文本的物理属性和阅读环境（setting）为研究重心，研究文本的易辨认性（legibility）和环境对阅读的影响。

Tinker（1963）对文本的字母大小写和字体、独立的单词、上下文中的单词、字间距、行的宽度和行距等对文本的易读度影响作了详细的研究。

同时，他还收集了光的强度和方向对易辨认性有影响的证据。

Williamson（1966）研究了英国印刷商所用的76种字体.Shaw（1969）指出文本的易辨认性不佳对流利的读者没有太大的影响,但对刚学习阅读的孩子有很大的影响.Spencer（1969）指出了字体对整篇文本的易辨认性的影响以及读者的反应。

这一研究方向被印刷业从业者所继承和发展。

现在,有很多研究者开始研究计算机显示屏显示文本的易读度。

第二类从阅读测试和心理学的角度来研究文本的易读度。

最传统的方法就是回答问题法（QuestionandAswerTechnique）。

读者在读完文本后,让其回答问题，根据回答问题的正确度来判断文本的易读度.正如Gilliland（1976）指出这种方法很难区分所反映的是文本的复杂性还是问题的难度,而且回答问题时的情形对回答结果影响很大,如所用时间限制和是否能参阅文本等。

其次，完成句子法（SentenceCompletionTechnique）也是许多研究者用来评估文本的易读度。

从文本中抽取句子,去掉某些词，让读者填写。

在很大程度上，被填写的词仅仅能反映文本的内容，与文本的语言复杂性关系不大.随着心理学的发展，Taylor（1953）在完成句子法的基础上提出了用完形填空（closeprocedure）来评估文本易读度。

将一篇文本随意地或按每隔15词去掉某些词,要求读者读完后填出。

完形填空法克服了过去将孤立的句子作为测试材料，而是用一个连续的篇章.另外，完形填空法在很大程度上避免了评分的主观性。

Klare（1966）对完形填空法提出了批评，指出读者虽然没有理解整句但在熟悉的表达法的帮助下将有些单词正确的填出。

在二十世纪六、七十年代,心理语言学逐渐兴起和繁荣，许多研究者又提出了评估易读度的新方法.Miller和Kintsch（1980）认为易读度可以解释为理解一个语篇所需要的语篇操作。

他们将文本分析成命题，文本的易读度等于命题数除以阅读时间。

Meyer（1984）在文本命题分析的基础上，进行层面效应研究。

他指出高一层的命题比低一层的命题复述更容易，高层命题越多，文本易读度越高。

尽管这些研究更注重阅读是读者和阅读材料的交互过程，但主观性太强而可操作性不强。

第三类研究是对文本的语言学特征进行量化分析,即易读度公式研究.这类研究是易读度研究的主流,也取得了丰硕的成果。

自20世纪二十年代VogelandWashburne提出第一个测量易读度的公式以来，语言学家们研究出了上百个测定易读度的公式（readabilityformula）,常用的有Dale-Chall，Fry，FleschReadingEase,FOG，SMOG,FORCAST，Powers—Somner-Kearl,Spache等公式.这些公式广泛用于教育、保险、军事等各个领域.Gunning的FOG公式适用于评估英语为本族语国家的小学高年级和中学阅读材料;Powers-Sumner-Kearl适用于评估7-10岁儿童阅读的材料。

Flesch-Kincaid是美国国防部采用的标准公式，而FORCAST专门为评估美国军队的技术手册易读度而设计。

在所有公式中它适用最广泛,最具影响力。

FleschReadingEase（RE）=206。

84－0。

85wl－1.02sl.wl（wordlength）代表每100个抽样词的平均音节数，sl（sentencelength）代表每个句子的平均单词数，RE代表易读度难易指数，一般为0到100之间的某个数。

RE数值越大，文本越易。

Flesch还提供了一个RE数值参照表（见表一），这样公式的使用者就能直观地判断出文本的难度和适合阅读的年龄。

FleschReadingEase可以对适合各个年龄阶段的材料（使用手册类等特殊材料除外）进行检测.本项目选择FleschReadingEase作为文本易读度的检测公式。

表一Flesch易读度数值参照表

易读度指数（Readability

Index）

衡量描述（Description

ofScales）

代表杂志（Typical

Magazine）

潜在读者（PotentialReaders）

年级（SchoolGrade）

占美国成年人的比例（％ofUSadults）

0—30

很难（Verydifficult）

Scientific

College

4。

30-50

难（Difficult）

Academic

HighSchool

24％

50-60

较难（Fairlydifficult）

Quality

Somehighschool

40%

60—70

标准（Standard）

Digest

7or8thgrade

75%

70—80

较容易（Fairlyeasy）

Slick—fiction

6thgrade

80%

80—90

容易（Easy）

Puff—fiction

5thgrade

86％

90—100

很容易（Veryeasy）

Comics

4thgrade

90%

来源：

Flesch（1948：

223）

随着易读度研究的深入，易读度的重要性得到了社会的重视.在美国，有的州法律规定出版商必须在出版的书中提供平均易读度数据以便读者选择；对中小学课本必须进行易读度计算且符合规定数值。

有的行业协会规定一些公共文件，如保险单、合同、税务资料等材料的易读度必须符合规定.比如，马塞诸塞州保险委员会规定保险单的易读度用FleschReadingEase公式计算不低于50，而明尼苏达州则要求不低于40（Redish，1979）.

易读度公式在很多方面都与阅读测试类似,只不过易读度公式测试对象是文本（Fry，1977）.因而公式提出者都进行了效度（validity）和信度（reliability）分析，有的进行了回归分析（regressionanalysis）。

有研究者用Dale-Chall,Gunning和Mclaughlin三个公式对ThePlowdenReport和TheValleyofAdventure两个文本进行易读度分析，结果表明公式之间的相关性非常高（Gilliland,1976）。

这些研究表明易读度公式总体上能够检测文本的易读度，是科学的.

表二Dale-Chall，Gunning和Mclaughlin三个公式检测结果比较表

PlowdenReport

ValleyofAdventure

Dale—Chall

13-15thGrade

7-8thGrade

Gunning

15thGrade

10thGrade

Mclaughlin

13thGrade

8thGrade

来源：

Gilliland（1976:

95）

易读度公式也招致了以Rosenblatt，Anderson＆Davison代表的学者的批评。

他们的批评主要有两方面。

一方面，他们指出易读度仅仅检测词汇和句长，而不能检测影响文本理解的所有因素。

另外，易读度公式脱离文本和读者交互的语境去评估文本，因此它不能反映与读者相关的许多因素,如动机、兴趣和目的等，也不能反映不同读者的文化背景以及环境对阅读的影响（Bruce&Rubin,1988）。

但是，他们提出批评后，并没有提出比易读度公式更科学更有效的易读度评估方式，因此，易读度公式到目前为止仍然是最客观、最有效的易读度检测方式。

我国学者从上世纪90年代开始对英文易读度进行研究.林铮（1995）开发了一套易读度软件ERDA。

杨惠中（1998）用FleschReadingEase对大学英语四、六级考试进行效度分析.钱毓芳和顾群超（1999,2000）进行大学英语教材易读度研究.李绍山（2000）对易读度研究进行了评介。

邓昭春等（2002）对大学英语教材的易读度进行比较研究。

辜向东和关晓仙（2003）对大学英语阅读测试和大学英语教材进行抽样研究.

三、英文易读度测量软件ERMS（EnglishReadabilityMeasurementSystem）的研发—从语言学的角度

（一）ERMS建构方案

国内外易读度研究成果和计算机技术的发展使开发一套适合中国大学英语教学的易读度测量软件成为可能。

“只要合理、有效地控制决定读者的社会、文化变量和语言本身的变量，…通过每个公式来测定英文易读度是完全可能的,也是可取的”（林铮：

1995:

42）.我国大学英语学习者的文化背景、学习经历、英语语言知识以及智力都具有较大的同质性，所以ERMS选用应用最广泛、最具影响力的FleschReadingEase公式来测量英文易读度是可行的。

李绍山（2000）认为在预测文本易读度方面，词频比句长更具有预测能力，所以ERMS必须建立词库。

ERMS词库以教学大纲规定的CET-4和CET—6词汇为基础，分为四个等级。

第一级为大学前（precollege）词汇，第二级为CET-4词汇，第三级为CET-6词汇,而第四级为6级外词汇（包括研究生词汇和8级词汇）。

建立词库的目的是计算各级词汇的构成比例。

这样得出的数据更有助于我国大学英语教学。

另外，该软件还应能测定词汇密度（lexicaldensity）。

词汇密度指文本中不同词的数目与总词数的比率，是度量文本难度的一种方法。

词汇密度一般以百分比表示，其计算公式为：

词汇密度（Type—TokenRatio）=不同词的数目（type）÷总词数（token）×100。

由此可见,ERMS需要测量4个参数:

文章的句子数

文章的总音节数

文章的总词数

不同词的数量（type）。

从计算机的强大功能来看,参数

和

能精确统计,参数

相当复杂,需严密的逻辑界定。

这个软件用面向对象程序设计工具—Powerbuilder。

词库用MicroAccess建设.

（二）句子的界定

句子是最大的语法结构单位。

根据功能，句子可分为4类：

陈述句、疑问句、祈使句和感叹句。

所有英语句子的标记有三种:

[。

]、[?

］和［！

］,计算机容易辨认和统计。

但是，有些缩写词也用[。

］，如U.S。

A.、a。

m。

等，计算机也会将缩写词中的[.］统计为句号，所以编写程序必须要排除缩写词中的[。

]，如例

（1）。

但是如果缩写词在句末时，计算机应将最后一个[。

］统计为句子，如例

（2）。

例

（1）Mr.Smithisateacher。

在例

（1）中尽管有2个[.],但只有一个句子。

例

（2）Mr。

SmithhasneverbeentoU.S。

A。

在例

（2）中有4个[。

］，但只有一个句子。

除了完整句外，Gray（1975）指出[：

］和［;］结尾的句子在易读度研究中应统计为句子，因为有的含［：

］和[;］的句子,实际上是一个句群,如例（3）.

例（3）Intermsofattitudestocreativitythereseemstobeareversalofpriorities:

youngWesternersmakingtheirboldestdeparturesfirstandthengraduallymasteringthetradition;andyoungChinesebeingalmostinseparablefromthetradition，but,overtime,possiblyevolvingtoapointequallyoriginal。

如果将例（3）只统计为一个句子，那么就不能准确反映该句的易读度.根据Gray的观点,例（3）应统计为3个句子,因为有[：

］、［;]和［.］标记.

例（4）Igetupat7:

30onSundaymorning。

尽管例（4）中有[：

］和［.］这两个标记，但只有1个句子。

编写程序是必须考虑表示时间时所用的[:

］.由于戏剧文本和对话有很多[:

］，所以ERMS不适宜测量剧本和对话的易读度.

（三）音节的界定

由于英语不是音节文字语言，而是字母文字语言，因而计算机不能直接识别和统计音节。

我们必须帮助计算机进行以字母为基础的音节识别和统计.根据英语语系学，音节的定义是根据辅音和元音如何组成序列来加以说明的。

元音或者单独成为音节,或者成为音节的“中心”。

辅音位于音节的开头或结尾，除一些特殊情况外，通常不能单独成为音节.我们通过研究,发现所有的元音和元音组合有4类（见表三）.计算机识别时的优先顺序为由长到短，即先识别4个字母的组合，如果没有，再检查是否有3个字母的组合，依次识别和判断.

表三元音的字母组合

类型Type

拼写和例词Spellings&Examples

4-letter

oughbought

aughtaught

eighneighbour

3-letter

arecareioucurious

airfairoarcupboard

earheartearthdearoorpoor

eaubureauoreshore

eerdeeroulcould

ereherewhereourjournalcolourtour

ierfierceuoybuoy

ighlighturepurefigure

iorreservior

2—letter

aeMichaelealeavedeadgreatiabias

aimountainplaitraineetreeiefieldtie

altalkeiseizeneitherioinstruction

arcarforwardeoburgeonirbirth

auauntbecauseerservebetteriumedium

awlawneuEuropeoacoat

aySundaymayewchewoeshoetoe

uetrueeykeymoneytheyoivoice

uijuice—yedyeoobloodbook

uroccur—yrmartyrorcornworkeffort

uuvacuum—recentreoutouchcoughsoup

uybuyowknowledgegrowtownoyboy

1—letter

aprivatemanymarrystaffwantaboutmake

ebesetneededpavement

isitpossibletime

owondercostwomandomethodgo

uhurrypushrudecolumn

—ycitytry

英语的发音并非都是完全有规律，因此在编写程序时必须考虑下列特殊情况。

（1）当y是单词的首字母，发半元音［j］，起辅音的功能时,不能把它统计为一个音节，如yes，yield和year等。

（2）当e在单词的最后一个字母，而且不发音时，不能把它统计为一个音节。

即当计算机遇到（a,e，o，i，u,y）+辅音+e这种结构时,不将e统计为一个音节。

如make,piece,quote，kite和June只能统计为一个音节。

（3）当[l]、[m］和［n]在单词末时,有时也可以组成一个音节.但［l]组成一个音节时，字母l后必定有一个字母e，如little，enable等。

当［n]组成一个音节时，字母n前面必定有字母a,e,o,i,u,y,如lesson，garden等。

在这两种情况下，计算机能正确识别统计。

当[m］组成一个音节时，有两种情况。

一个是特殊单词rhythm是两个音节,另一个是-sm在词尾时，应统计为一个音节。

例如capitalism应为5个音节而不是四个音节。

（4）Fry（1977）指出数字、标记、首字母缩写词,每单个数字或字母为一个音节，如1999=4个音节，USA=3个音节。

但缩写（cm，mm,km，kg，e.g.,i.e。

）为一个音节。

由于英语有很多外来词的发音不符合英语的发音规则,这会影响音节统计的准确性。

但就一篇文本而言,外来词的影响是微不足道的。

（四）词库建设

由于英语是粘着语言，每个单词在使用中都可能有形态变化，因此词库中的单词不仅要标记词级，而且要尽可能的列出可能的变体。

根据词性，英语单词可分为8类：

名词、代词、形容词、副词、介词、连词和感叹词.8类词中，介词、连词和感叹词一般没有变体。

其他5类词在建立词库是要考虑以下变体:

所有格，复数形式，动词的不同时态（现在时，过去时，进行时，完成时），形容词形式（比较级和最高级），副词形式,反身代词和其他变体（如缩写，美国英语和英国英语的不同拼写等）。

每个变体都用逗号隔开，以便计算机识别。

大学前单词标记为p，CET—4词汇标记为4，CET—6词汇标记为6，研究生词汇标记为y（带进一步开发），8级词汇标记为8（见表四）。

为了优化词库，特在词库中设计词库维护功能，便于在软件使用过程中增加单词和单词的变体。

表四词库的一部分

序号

单词

单词及其变体

词级

词性

accountant

accountant,acct.，accountants，accountant's，

accountants’,

4（band4）

248

angry

，angry，angrily，angrier，angriest，

P（precollege）

adj

1339

constrain

constrain,constrained，constraining，constrains,

6（band6）

1364

contestant

，contestant,contestants,contestant's,constestants',

8（band8）

1272

concrete

，concrete，concretely,concreted,concreting,concretes，concrete's,

adj，

n,vt

613

beyond

beyond，

prep,adv

6434

they

they,they've，they're,they’d,they’ll,

pron。

6429

thereof

，thereof，

adv.

3015

hello

hello,hellos,hullo,hullos,hallo,hallos,

int,n

五、ERMS介绍

ERMS运行的硬件要求：

PIII700Hz及以上CPU，10g及以上硬盘，和64M及以上内存。

系统软件要求：

WINDOWS9x,WINDOWS2000,WINDOWSxp，WINDOWSME。

由此可见ERMS对硬件和软件没有特别的要求，它能在普通的计算机上运行。

（一）ERMS功能介绍

ERMS能实现以下功能:

（1）统计总词数（token）；

（2）统计不同类型词的数目（type）；（3）统计句子数；（4）统计音节数；（5）用FleschReadingEase公式计算文本的易读度；（6）计算文本的词汇密度；（7）分类和显示大学前词汇，CET-4词汇，CET—6词汇，8级词汇和其他词汇；（8）计算词汇构成比例;和（9）词库维护。

（二）ERMS使用说明

图一ERMS主界面

表五主界面功能说明

区

功能说明

文本输入

展开阅读全文