语料库简单DIY第三讲.docx

资源描述

语料库简单DIY第三讲.docx

《语料库简单DIY第三讲.docx》由会员分享，可在线阅读，更多相关《语料库简单DIY第三讲.docx（14页珍藏版）》请在冰豆网上搜索。

语料库简单DIY第三讲.docx

语料库简单DIY第三讲

a.用语料库软件处理语料数据，这是一种从感性思维到理性思维的转变过程；

b.逻辑思维的培养，是交叉学科---语料库语言学的特性；

c.建立自己所需要的语料搜索前，必须有一个缜密的逻辑定义；

语料库简单DIY 第三讲语料库软件高级检索的建立

MonoConcPro2.2

主讲叶城日本国立广岛大学综合科学研究中心计算机辅助语言教学博士一年

联系方式:

QQ E-mail:

大家好！

今天我们又在语料库简单DIY这个讲座上和大家见面了。

时值七月，恰逢奥运前夕，想必祖国现在已经是百花齐放，欣欣向荣的一派盛事了。

无奈本人手头工作太多，不能在奥运前夕回到祖国，与国人一起欢度这个盛事壮举了。

就把这种心情转换为一种教学热情吧。

面对一直支持我的朋友们，本人无以回报，唯有多说一些，多教一些，也算是为祖国做一些力所能及的事情吧。

首先我们来简单回顾一下上一讲我们所学的内容。

如果有想不起来的朋友，请翻看上一讲的帖子。

在上一讲中，我向大家介绍了语料库检索软件MonoConcPro2.2的基本功能，并且介绍了如何利用软件制作WordList，也就是我们所说的词频功能。

我们还使用了软件的Frequence功能，建立了针对多个语料文件的词频数据统计表。

有兴趣的朋友，可以尝试使用这些内容，进行初步的语料检索和应用了。

虽然现在我们的教学还使用的是处理字母体系文字的MonoConcPro2.2，但是从长远上来说，其实我们只需要掌握一种查询检索软件，我们就可以掌握几乎所有的语料库软件。

因为大体上，这些软件的处理功能都是类似的。

有的朋友向我询问，学习这些软件觉得太复杂，有没有更加简单的方式来掌握语料库？

---对于这样的问题，我真的不知道该怎么回答。

万丈高楼平地起啊，这是基础，基础都掌握不好，怎么能去处理庞大的语料数据呢？

只有掌握了基础，才能应对复杂的语料检索需求，才能在茫茫如大海般的预料信息中筛选自己所需要的部分，也才能真正实现语料库，这个语言研究工具的价值。

好了，不说闲话了，赶紧进入今天的正题。

语料库软件高级搜索的建立--MonoConcPro2.2

本软件是Athelstan开发小组，于1996年开发的语料库比较检索工具。

目前，我的服务器上提供学术性下载，下载地址：

-u.ac.jp/whistle/corpus/MoconcPro2.2.rar

（本软件为学术交流使用，所有权归本软件开发小组所有，一切商务性盈利目的的违法使用，所带来的连带责任关系与本人及本论坛无关。

请慎重下载，小心使用！

！

）

进阶功能

Concordance语料检索索引的建立

Concordance--这东西是干吗的啊？

语料检索索引？

这是什么东西啊？

说得那么邪乎，看不出个所以然来。

其实，语料检索索引，是我们语料库使用的核心，是使用语料库检索软件进行检索的主要目的。

我们需要查询某一个词，某一个词的搭配，某一个短语等等，都是在这个功能的强大支持下实现的。

下面我们就来好好说说这个强大而又极端复杂的检索功能。

首先，我们打开MonoConcPro2.2，然后导入一篇文章。

我导入的是附带在Sample文件夹下的文章罪与罚.txt文件。

这一步如果不能实现的朋友，赶紧去看上一讲的帖子去。

然后，我们可以看到软件中出现了功能选项的那一行菜单。

位置就在原来Files的那一行。

找到Concordance然后选择里面的Search

这个时候就会出现以下的画面

我们可以看到在软件的中间，出现了一个对话框。

这个对话框就是用来输入指定查询的字母，数字，单词，短语，句子等信息的对话框。

那么我们现在在里面输入一个英语文章中经常出现的定冠词：

the

然后我们点击ok，这个时候我们就看到软件开始自动寻找所需要查询的指定信息，并罗列出所有的检索结果。

图中，蓝色的部分就是我们查询的the，每一行都是查询的结果，也就是the所在的文章中的句子，或者句子片断。

我们点击每一个含有the的句子，就可以在窗口中看到原文。

红色和深红色字体是出现频率较高的词汇，这里不多做说明。

很多朋友看到此，已经觉得这软件自己已经掌握了。

的确，看到这一个对话框中的内容，所有使用过在线语料库的朋友，都会感到异常的熟悉和亲切。

这就是我们使用语料库检索工具的关键所在---就是为了查询嘛！

这种形式我们称作KWIC模式。

全称应该是KeyWordsinContext。

我们一般在C+语言中常常会看到这个模式，一般是指定义一个应用程序的指定入口点。

在JAVA环境下，也使用类似的KWIC功能，来显示网页的LINK。

总之，这个模式应用的范围非常广，如果有兴趣的朋友，可以上网查查这个功能。

我们看到上图中，查询的结果很多，很长。

翻看起来比较麻烦，比如要比较两个特定的语言环境下的the的用法，如果是上下罗列在一起的句子，那还好说。

但是如果两个句子之间相差几万个句子，那么我们比较起来就比较麻烦了。

MonoConcPro2.2在这个问题上，充分展现了其优越的人性化的一面。

我们在上图那个检索结果中，用鼠标右键点击我们需要的句子，这时候会出现一个右键菜单，里面提到了AssignLetter。

这是一个类似书签一样的功能，它主要实现的是实现标记功能。

并且，在后续我们还会讲到，利用AssignLetter功能，我们还可以直接对我们所标记的句子进行检索和罗列。

可惜的是，AssignLetter只提供了26个字母，我们也只能标记26个句子，这可能算是唯一的一点儿遗憾了。

上图左边出现的ad z字母就是笔者任意标记的句子。

如果要去掉这些字母标记，我们只需要在刚才的右键菜单中选择

RemoveLetter或者RemoveAllLetters就可以实现了。

那么我们对于刚才那个检索的列表中，不需要的句子，我们应该怎么处理呢？

不难，选择你不要的句子，然后选择功能菜单中的Display中的DeleteItem（s）就可以实现删除了。

当然，如果要选择复数以上的句子，那么只需要按住Ctrl键然后用鼠标去选取，就可以选择多个句子了，然后再使用DeleteItem（s）功能去删除就可以了。

现在，我们掌握了查询，标记，删除语料的具体操作方法，是不是语料库中的语料就不再那么复杂繁琐，相反变得异常容易研究了呢？

---不是？

！

那我在告诉你一个更加强大的Sort排序功能，相信看完这个功能，你已经不再需要笔者的指导了。

Sort功能是MonoConcPro中一个让笔者觉得最为强大的功能。

虽然这个功能本身还不是很完善。

开发人员在软件的说明中也提到了，这个功能尚处于开发阶段，目前的精确率（注意了，是精确率）还不是很高。

但是对于我们的应用语言学研究来说，这已经绝对足够了。

那么，这个Sort排序功能到底是什么东西那么让笔者兴奋呢？

首先我们还是回到Search之后的画面

我们可以看到，此时此刻的查询结果，是异常的纷乱繁琐，可以说出了具备指定的单词以外，没有什么规律可言。

因此，我们对这样的查询结果做一些简单的排序处理，这样我们就能更加直观地察看这些检索成果了。

其实Sort排序功能的基准，默认是26个字母的字母表顺序。

它将指定的选项按照字母表进行排序。

我们打开Sort排序菜单。

映入我们眼帘的是一堆术语，下面我做一些说明。

以这里我们指定的检索单词the为例：

1 2ndLeft（以被检索单词the往左数第二个单词为基准）

2 1st Left（以被检索单词the往左数第一个单词为基准）

3 SearchTerm（以被检索单词the本身为基准）

4 1stRight（以被检索单词the往右数第一个单词为基准）

5 2ndRight（以被检索单词the往右数第二个单词为基准）

6 1stRight,1stLeft（以被检索单词the往左数第一个单词+the+被检索单词the往右数第一单词+“，”的结构为基准）

7 1stLeft,1stRight（以被检索单词the往右数第一个单词+the+被检索单词the往左数第一单词+“，”的结构为基准）

8 OriginalOrder（恢复初期检索结果，不进行任何Sort排序）

9 AdvancedSort（建立高级，自定义Sort排序关系）

看到此，估计很多人都望而却步了。

这都是什么东西啊？

根本搞不懂说什么啊！

其实这就是一种排序和选择排序的基准的一些设定。

1~5的排序功能，都是为了检索在the单词的左右位置都会出现一些什么样的词，方便大家研究词汇的搭配，词性，以及语言语境中的固定搭配等等。

而6，7的检索主要是针对文章中特有的含有逗号的句式结构来进行检索的。

说了这么多，估计大家还是懵懵懂懂的，那我还是来举个例子吧。

上图，是我们检索the之后的结果。

大家现在来听着我说，然后试试看。

我们选择Sort菜单中的SearchTerm，然后在出现的子菜单中，选择1stLeft。

这个建立的排序的意思是：

以被检索的单词the本身为基准+以被检索的单词the往左数第一个单词为基准来排序。

简单来说，这句话就是要把the左边的第一个单词进行排列。

但是因为我们的排序要求，需要变成计算机语言，所以我们就需要以上的那样的繁琐的操作。

不过这样很好，这是一个很严密的逻辑过程，值得大家去学习。

点击完之后，然后我们就看到了下面这张图。

这时候我们看到，the左边的一列单词，呈现出字典上的，按照26个字母的顺序进行排列了。

这时候我们仔细观察，就发现在the的前面会出现很多and，at，by，from，but，for等等频率极高的单词。

同样的，我们现在选取，Sort中SearchTerm中的1stRight选项。

聪明的朋友们，你们觉得会出现什么样的结果呢？

是的，我们就看到了，软件自动将the右边的第一个单词按照字母顺序进行了排序。

然后我们就看到了一个缤纷的名词世界，the后面全是名词，显示了其强大的定冠词作用！

好了，休息一下吧，估计很多朋友的大脑已经开始绕星星了。

------------------------------------------------课间休息-----------------------------------------课间休息----------------------------------------------------

继续Sort排序功能介绍！

刚才的课上，我们介绍了Concordance的强大检索功能，以及简单说明了辅助Concordance的超级Sort排序功能。

不知道大家听了之后有什么感想。

估计很多女士们已经忍不住关掉网页看连续剧去了，估计一些男士朋友也已经受不了了。

是啊，我们都是搞文科的出身，猛然一下子进入到这样的一个领域，大家都会

展开阅读全文