语料库简单DIY第三讲.docx
《语料库简单DIY第三讲.docx》由会员分享,可在线阅读,更多相关《语料库简单DIY第三讲.docx(14页珍藏版)》请在冰豆网上搜索。
语料库简单DIY第三讲
语料库简单DIY第三讲
a.用语料库软件处理语料数据,这是一种从感性思维到理性思维的转变过程;
b.逻辑思维的培养,是交叉学科---语料库语言学的特性;
c.建立自己所需要的语料搜索前,必须有一个缜密的逻辑定义;
语料库简单DIY 第三讲 语料库软件高级检索的建立
MonoConcPro2.2
主讲 叶城 日本国立广岛大学综合科学研究中心 计算机辅助语言教学博士一年
联系方式:
QQ E-mail:
大家好!
今天我们又在语料库简单DIY这个讲座上和大家见面了。
时值七月,恰逢奥运前夕,想必祖国现在已经是百花齐放,欣欣向荣的一派盛事了。
无奈本人手头工作太多,不能在奥运前夕回到祖国,与国人一起欢度这个盛事壮举了。
就把这种心情转换为一种教学热情吧。
面对一直支持我的朋友们,本人无以回报,唯有多说一些,多教一些,也算是为祖国做一些力所能及的事情吧。
首先我们来简单回顾一下上一讲我们所学的内容。
如果有想不起来的朋友,请翻看上一讲的帖子。
在上一讲中,我向大家介绍了语料库检索软件MonoConcPro2.2的基本功能,并且介绍了如何利用软件制作WordList,也就是我们所说的词频功能。
我们还使用了软件的Frequence功能,建立了针对多个语料文件的词频数据统计表。
有兴趣的朋友,可以尝试使用这些内容,进行初步的语料检索和应用了。
虽然现在我们的教学还使用的是处理字母体系文字的MonoConcPro2.2,但是从长远上来说,其实我们只需要掌握一种查询检索软件,我们就可以掌握几乎所有的语料库软件。
因为大体上,这些软件的处理功能都是类似的。
有的朋友向我询问,学习这些软件觉得太复杂,有没有更加简单的方式来掌握语料库?
---对于这样的问题,我真的不知道该怎么回答。
万丈高楼平地起啊,这是基础,基础都掌握不好,怎么能去处理庞大的语料数据呢?
只有掌握了基础,才能应对复杂的语料检索需求,才能在茫茫如大海般的预料信息中筛选自己所需要的部分,也才能真正实现语料库,这个语言研究工具的价值。
好了,不说闲话了,赶紧进入今天的正题。
语料库软件高级搜索的建立--MonoConcPro2.2
本软件是Athelstan开发小组,于1996年开发的语料库比较检索工具。
目前,我的服务器上提供学术性下载,下载地址:
-u.ac.jp/whistle/corpus/MoconcPro2.2.rar
(本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。
请慎重下载,小心使用!
!
!
)
进阶功能
Concordance语料检索索引的建立
Concordance--这东西是干吗的啊?
语料检索索引?
这是什么东西啊?
说得那么邪乎,看不出个所以然来。
其实,语料检索索引,是我们语料库使用的核心,是使用语料库检索软件进行检索的主要目的。
我们需要查询某一个词,某一个词的搭配,某一个短语等等,都是在这个功能的强大支持下实现的。
下面我们就来好好说说这个强大而又极端复杂的检索功能。
首先,我们打开MonoConcPro2.2,然后导入一篇文章。
我导入的是附带在Sample文件夹下的文章罪与罚.txt文件。
这一步如果不能实现的朋友,赶紧去看上一讲的帖子去。
然后,我们可以看到软件中出现了功能选项的那一行菜单。
位置就在原来Files的那一行。
找到Concordance然后选择里面的Search
这个时候就会出现以下的画面
我们可以看到在软件的中间,出现了一个对话框。
这个对话框就是用来输入指定查询的字母,数字,单词,短语,句子等信息的对话框。
那么我们现在在里面输入一个英语文章中经常出现的定冠词:
the
然后我们点击ok,这个时候我们就看到软件开始自动寻找所需要查询的指定信息,并罗列出所有的检索结果。
图中,蓝色的部分就是我们查询的the,每一行都是查询的结果,也就是the所在的文章中的句子,或者句子片断。
我们点击每一个含有the的句子,就可以在窗口中看到原文。
红色和深红色字体是出现频率较高的词汇,这里不多做说明。
很多朋友看到此,已经觉得这软件自己已经掌握了。
的确,看到这一个对话框中的内容,所有使用过在线语料库的朋友,都会感到异常的熟悉和亲切。
这就是我们使用语料库检索工具的关键所在---就是为了查询嘛!
这种形式我们称作KWIC模式。
全称应该是KeyWordsinContext。
我们一般在C+语言中常常会看到这个模式,一般是指定义一个应用程序的指定入口点。
在JAVA环境下,也使用类似的KWIC功能,来显示网页的LINK。
总之,这个模式应用的范围非常广,如果有兴趣的朋友,可以上网查查这个功能。
我们看到上图中,查询的结果很多,很长。
翻看起来比较麻烦,比如要比较两个特定的语言环境下的the的用法,如果是上下罗列在一起的句子,那还好说。
但是如果两个句子之间相差几万个句子,那么我们比较起来就比较麻烦了。
MonoConcPro2.2在这个问题上,充分展现了其优越的人性化的一面。
我们在上图那个检索结果中,用鼠标右键点击我们需要的句子,这时候会出现一个右键菜单,里面提到了AssignLetter。
这是一个类似书签一样的功能,它主要实现的是实现标记功能。
并且,在后续我们还会讲到,利用AssignLetter功能,我们还可以直接对我们所标记的句子进行检索和罗列。
可惜的是,AssignLetter只提供了26个字母,我们也只能标记26个句子,这可能算是唯一的一点儿遗憾了。
上图左边出现的ad z字母就是笔者任意标记的句子。
如果要去掉这些字母标记,我们只需要在刚才的右键菜单中选择
RemoveLetter或者RemoveAllLetters就可以实现了。
那么我们对于刚才那个检索的列表中,不需要的句子,我们应该怎么处理呢?
不难,选择你不要的句子,然后选择功能菜单中的Display中的DeleteItem(s)就可以实现删除了。
当然,如果要选择复数以上的句子,那么只需要按住Ctrl键然后用鼠标去选取,就可以选择多个句子了,然后再使用DeleteItem(s)功能去删除就可以了。
现在,我们掌握了查询,标记,删除语料的具体操作方法,是不是语料库中的语料就不再那么复杂繁琐,相反变得异常容易研究了呢?
---不是?
!
那我在告诉你一个更加强大的Sort排序功能,相信看完这个功能,你已经不再需要笔者的指导了。
Sort功能是MonoConcPro中一个让笔者觉得最为强大的功能。
虽然这个功能本身还不是很完善。
开发人员在软件的说明中也提到了,这个功能尚处于开发阶段,目前的精确率(注意了,是精确率)还不是很高。
但是对于我们的应用语言学研究来说,这已经绝对足够了。
那么,这个Sort排序功能到底是什么东西那么让笔者兴奋呢?
首先我们还是回到Search之后的画面
我们可以看到,此时此刻的查询结果,是异常的纷乱繁琐,可以说出了具备指定的单词以外,没有什么规律可言。
因此,我们对这样的查询结果做一些简单的排序处理,这样我们就能更加直观地察看这些检索成果了。
其实Sort排序功能的基准,默认是26个字母的字母表顺序。
它将指定的选项按照字母表进行排序。
我们打开Sort排序菜单。
映入我们眼帘的是一堆术语,下面我做一些说明。
以这里我们指定的检索单词the为例:
1 2ndLeft(以被检索单词the往左数第二个单词为基准)
2 1st Left(以被检索单词the往左数第一个单词为基准)
3 SearchTerm(以被检索单词the本身为基准)
4 1stRight(以被检索单词the往右数第一个单词为基准)
5 2ndRight(以被检索单词the往右数第二个单词为基准)
6 1stRight,1stLeft(以被检索单词the往左数第一个单词+the+被检索单词the往右数第一单词+“,”的结构为基准)
7 1stLeft,1stRight(以被检索单词the往右数第一个单词+the+被检索单词the往左数第一单词+“,”的结构为基准)
8 OriginalOrder(恢复初期检索结果,不进行任何Sort排序)
9 AdvancedSort(建立高级,自定义Sort排序关系)
看到此,估计很多人都望而却步了。
这都是什么东西啊?
根本搞不懂说什么啊!
其实这就是一种排序和选择排序的基准的一些设定。
1~5的排序功能,都是为了检索在the单词的左右位置都会出现一些什么样的词,方便大家研究词汇的搭配,词性,以及语言语境中的固定搭配等等。
而6,7的检索主要是针对文章中特有的含有逗号的句式结构来进行检索的。
说了这么多,估计大家还是懵懵懂懂的,那我还是来举个例子吧。
上图,是我们检索the之后的结果。
大家现在来听着我说,然后试试看。
我们选择Sort菜单中的SearchTerm,然后在出现的子菜单中,选择1stLeft。
这个建立的排序的意思是:
以被检索的单词the本身为基准+以被检索的单词the往左数第一个单词为基准来排序。
简单来说,这句话就是要把the左边的第一个单词进行排列。
但是因为我们的排序要求,需要变成计算机语言,所以我们就需要以上的那样的繁琐的操作。
不过这样很好,这是一个很严密的逻辑过程,值得大家去学习。
点击完之后,然后我们就看到了下面这张图。
这时候我们看到,the左边的一列单词,呈现出字典上的,按照26个字母的顺序进行排列了。
这时候我们仔细观察,就发现在the的前面会出现很多and,at,by,from,but,for等等频率极高的单词。
同样的,我们现在选取,Sort中SearchTerm中的1stRight选项。
聪明的朋友们,你们觉得会出现什么样的结果呢?
是的,我们就看到了,软件自动将the右边的第一个单词按照字母顺序进行了排序。
然后我们就看到了一个缤纷的名词世界,the后面全是名词,显示了其强大的定冠词作用!
好了,休息一下吧,估计很多朋友的大脑已经开始绕星星了。
------------------------------------------------课间休息-----------------------------------------课间休息----------------------------------------------------
继续Sort排序功能介绍!
刚才的课上,我们介绍了Concordance的强大检索功能,以及简单说明了辅助Concordance的超级Sort排序功能。
不知道大家听了之后有什么感想。
估计很多女士们已经忍不住关掉网页看连续剧去了,估计一些男士朋友也已经受不了了。
是啊,我们都是搞文科的出身,猛然一下子进入到这样的一个领域,大家都会