基于语料库分析初一语文教材的文本语言特征.docx

上传人:b****2 文档编号:1351932 上传时间:2022-10-21 格式:DOCX 页数:6 大小:68.39KB
下载 相关 举报
基于语料库分析初一语文教材的文本语言特征.docx_第1页
第1页 / 共6页
基于语料库分析初一语文教材的文本语言特征.docx_第2页
第2页 / 共6页
基于语料库分析初一语文教材的文本语言特征.docx_第3页
第3页 / 共6页
基于语料库分析初一语文教材的文本语言特征.docx_第4页
第4页 / 共6页
基于语料库分析初一语文教材的文本语言特征.docx_第5页
第5页 / 共6页
点击查看更多>>
下载资源
资源描述

基于语料库分析初一语文教材的文本语言特征.docx

《基于语料库分析初一语文教材的文本语言特征.docx》由会员分享,可在线阅读,更多相关《基于语料库分析初一语文教材的文本语言特征.docx(6页珍藏版)》请在冰豆网上搜索。

基于语料库分析初一语文教材的文本语言特征.docx

课程名称:

中文信息处理

任课教师:

郑泽之

论文题目:

基于语料库分析初一语文教材的文本语言特征

姓名:

王杰

学号:

10120142202388

摘要:

语言的研究向来以定性研究为主导,定量的研究所占的比例不大,但随着计算机技术的发展,利用语料库技术,对文本进行分析研究成为当前语言研究的一大趋势。

依靠厦门大学教育教材语言分中心的便利,笔者选取建国后第一版教材的初一语文部分,并利用AntConc3.2.0(windows)对此文本进行定量分析,从这一个角度去研究语文教材的文本语言特征。

关键词:

语料库;初一语文教材;定量分析

初一教材分上下两册,在操作中也是将两册分开,在两者的对比之中寻求共性。

为了对比更加有效,在分析的过程中,笔者还将引入其他类型文本的相关数据进行比较。

对教材语言的分析,将从宏观语言特征、高频词汇两方面入手。

因为教材不同于其他文本,它是各种文体的综合,有引言、有小说、有诗歌、有散文等等,若从细微之处入手,笔者很难分析出教材的文本语言特征。

故选择两个大的角度对教材进行分析,虽不能做到面面俱到,但力求在整体上对教材进行把握。

宏观语言特征

第一册

第二册

三重门

梦里花落知多少

词长

1.4934

1.7535

1.4054

1.3716

句长

21.8695

21.3735

24.7509

33.3967

例型比

4.7760

4.3566

6.0304

9.2866

名词比例

0.1868

0.2269

0.1751

0.1302

标点符号比例

0.2078

0.2703

0.1816

0.1204

陈述句比例

0.8817

0.878

0.7898

0.8585

疑问句比例

0.0579

0.0669

0.0791

0.0764

感叹句比例

0.0555

0.0801

0.1242

0.0563

单现词(hapax)

0.1137

0.132

0.0875

0.0531

宏观语言特征分析时,笔者从词长、句长、例型比、名词比例、标点符号比例、陈述句比例、疑问句比例、感叹句比例和单现词进行讨论,其中以词长、句长和例型比为主。

统计显示,第一册的词长为1.4934,第二册的词长为1.7535,第二册的词长比第一册的词长多0.2601,说明第二册中双字词和多字词的比重更多,选用词汇难度更高;而相对于另外两篇小说的1.4054和1.3716,教材所用的词明显更长,双字词和多字词比重较高体现出教材更加正式。

句长方面,第一册与第二册的句长相当,都在21左右;相对于小说文本的24.3735和33.3967,句长又偏短。

句长保持在21左右,简单句偏多,方便读者的阅读与理解,尤其是对于初中生而言,而小说文本较长的句长,更多的复杂句式,则是为了艺术性地表达。

应该注意到,教材中包含各种文体,小说自然也不例外,或许还包含其他句式更加复杂的文体,那么教材句长偏短该如何解释。

笔者认为原因有三点,一是教材中含有大量诗歌、引言、课后问题、目录等句长偏短的句子,二是教材选择文本中有意选择句式简单的文本进入教材,以便于学生学习,三是作为对比的两部小说具有独特之处,并不能完全代表小说文本。

例型比上,教材明显比小说低,第一册和第二册的例型比仅为4.7760和4.3566,而三重门和梦里花落知多少则高达6.0304和9.2866,表明教材的用词更加丰富、更加多样化;而且第二册比第一册的例型比低0.4196,加上词长变长,显示出随着初中学习的深入,越来越多的词汇被使用,例型比有下降的趋势。

另一个角度,在第一册中,单现词2042个,词数17953,所占比重为0.1137。

第二册中,单现词2191个,词数16577,所占比重为0.1322。

单现词越多,表明词汇越丰富,第二册高于第一册,与前文结果相合。

但这只是从上表中做出的推测,事实如何并不能因此得出,因为词数、词种、教材中的文体等不确定因素同样影响着例型比的大小。

词性方面,教材为学生学习而编纂的,所以教材对内容的丰富性要求比较高,故挑选出名词比例进行分析。

第一册的名词比例为0.1868,虽然相对于第二册的0.2269偏低,但是对比两部小说的0.1751和0.1302,第一册的名词比例显得很高。

对比之下,教材的名词比例出于较高的水平,名词相对于其他词汇拥有更高的比重,名词是携带具体含义的实词,名词的比重大,说明教材所包含的文本信息更大、内容更丰富。

同时,名词表静止,动词表变化,名词比例大说明文本叙述平缓、语言书面化。

这与教材中各种句型所占比例显示出的结论相同。

第一册教材中陈述句的比重为0.8817,第二册教材中陈述句比重为0.878,均高于两部小说的比例,而富于变化的疑问句和感叹句的比例就小于表中的两部小说。

如此高比例的陈述句,让文本平实质朴、内容丰富,符合学习者的要求,富于变化、生动有趣的句型在教材中的地位显得不那么明显。

通过以上对比,我们了解到相对于小说,教材的词语长度更长,双字词和多字词的比重更大;句子更加简短,方便读者理解;同等条件下,词种更多,词汇更加丰富多彩;句子平实质朴,说理性强。

高频词汇

Laviosa把高频词汇定义为“出现频率高于0.1%”的词汇。

根据统计,第一册中,高频词汇137个,共出现9055词,累计频率50.43%;第二册中,高频词汇127个,共出现8170次,累计频率49.29%。

现代汉语中典范的白话文著作被作为语法范例,典范的白话文著作的叙述有一定规律,那么现代汉语的用词也会有一定的规律。

体现在词汇方面就是特定的一部分词在文本中出现的频率较高,对于更加书面性的教材而言更是如此。

在教材中,不同文本的高频词汇大体上是相同的,例如AntConc处理的这两册教材中,同时高频词汇的词有107个。

高频词汇在文本中累计频率大,就会挤压其他词汇的存在空间,使得文本词汇重复出现情况多,用词不够丰富。

在两册教材的对比中,第一册高频词汇累计频率大,词汇重复出现多,用词不够丰富,这个结果跟上文中例型比所得相同,相互印证。

此外,笔者还统计了两册中出现频率前二十的词汇。

如下表:

第一册

第二册

第一册

第二册

第一册

第二册

第一册

第二册

1

11

21

31

我们

2

12

我们

22

32

3

13

23

33

4

14

24

34

5

15

25

35

没有

6

16

26

36

7

17

27

37

8

18

28

38

9

19

29

39

同志

10

20

30

40

根据表中的数据,“的”毫无疑问是出现频率最高的词汇,这也符合现代汉语的一般情况,但并不意味着所有的文本中“的”出现的频率都是最高,例如《梦里花落知多少》中出现频率最高的词汇是“我”。

出现频率前十的词汇中,“的、了、一、在、他、是、不、个”八个词重复出现,出现频率前二十的词汇中,“的、了、一、在、他、是、不、个、有、就、我、到、地、来、说、上、着”十七个词重复出现,第一册中出现“来、里、把”,第二册中出现“我们、这、都”。

类比到出现频率前四十的词汇,情况大抵相同,说明第一册和第二册词汇使用大体相同,但存在部分差异。

那么我们就以第一册的高频词汇为例分析文本语言特征。

在这四十个高频词汇中,他、我、你、她、我们、们等人称代词均有出现,具体人名没有出现,说明教材的综合性,任何一部分中出现的具体人名都未能在整个教材中占据足够令人重视的比重。

在这些人称代词中,他和我们是值得关注的两个词。

他的出现频率在这些人称代词中位居首位,说明文本中第三人称占据主要地位,第三人人称的叙述说理性更强,有助于问题的说明。

同时,第三人称赋予作者与读者上帝视角,用局外人的眼光看待问题,适合用于学习。

我们一词出现频率非常高,表明编纂者在编写教材或选用文章时强调集体主义色彩。

在体现集体主义色彩时,我们又不同于你们、他们的排外,我们突出兼容与团结。

在动词方面,是、有、到、来、说、把、去、要、走、看几个词出现频率最高,这些动词均是较为简单且在现代汉语中占据重要地位的动词。

其中是和有表是性质、从属、状态,到、来、说、去、要、走、看是最基本的行为动词。

“把”在现代汉语中比较特殊,与“被”相反,“把”强调主动,结合教材的编写特点,“把”字主要出现在课后的问题中,编者用第二人称的把字句向学习者抛出问题。

的、地、得三个助词在教材文本中出现频率也非常高,其中的出现频率最高,地其次,得最低,这与它们在句子中的功能有关。

的主要用在形容词后,地主要用在副词后,得主要用在补语前,的所占比重大表明文本叙述简单平易,地和得的使用又令文本富于变化、生动有趣,两者相结合,有动有静、相得益彰。

此外,第二册中的“同志”一词也只我们讨论,同志是两个文本中出现频率最高的词汇中唯一的实词。

不仅如此,同志一词更蕴含浓厚的时代色彩,这版教材编写于20世纪50年代,新中国刚刚成立,社会主义运动正蓬勃发展。

在社会主义语言环境下,同志具有明确的意涵,即为了共同的社会主义伟大理想而不懈奋斗的人,上可指国家领导人,下可指平民百姓。

为了宣传和弘扬这种社会主义人与人之间的友谊,编写者在教材中刻意突出“同志”一词。

基于语料库的分析,我们认识到教材的语言平实质朴,词汇丰富,第三人称为主,说理性强。

同时受时代的影响,富有时代特色。

教材作为一种特殊的文本,包含各种文体、涉及各个领域、每一部分表达内容又各不相同,仅仅从定性的角度并不能全面地对其进行分析。

而运用语料库技术,从宏观语言特征和用词角度进行统计分析,不仅为定性分析提供数据支持,还能从中提取感性分析不能取得的结论。

可见,语料库在分析文本的语言特征方面为研究者提供了新的视角,为感性解释文本提供理性的依据,将定量分析和定性分析相结合,使分析更加准确细致。

参考文献:

侯晋容《基于语料库的旅游文本语言特征及语篇分析》菏泽学院学报2011年12月

邵宏潘灵桥《基于语料库分析小说<老人与海>的问题特征》外国文学2010年第3期

感谢厦门大学教育教材语言分中心的材料!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 初中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1