语料库简单DIY第三讲.docx

上传人:b****2 文档编号:778076 上传时间:2022-10-12 格式:DOCX 页数:14 大小:847.37KB
下载 相关 举报
语料库简单DIY第三讲.docx_第1页
第1页 / 共14页
语料库简单DIY第三讲.docx_第2页
第2页 / 共14页
语料库简单DIY第三讲.docx_第3页
第3页 / 共14页
语料库简单DIY第三讲.docx_第4页
第4页 / 共14页
语料库简单DIY第三讲.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

语料库简单DIY第三讲.docx

《语料库简单DIY第三讲.docx》由会员分享,可在线阅读,更多相关《语料库简单DIY第三讲.docx(14页珍藏版)》请在冰豆网上搜索。

语料库简单DIY第三讲.docx

语料库简单DIY第三讲

语料库简单DIY第三讲

a.用语料库软件处理语料数据,这是一种从感性思维到理性思维的转变过程;

b.逻辑思维的培养,是交叉学科---语料库语言学的特性;

c.建立自己所需要的语料搜索前,必须有一个缜密的逻辑定义;

                    语料库简单DIY  第三讲  语料库软件高级检索的建立

                                      MonoConcPro2.2

主讲  叶城  日本国立广岛大学综合科学研究中心  计算机辅助语言教学博士一年

联系方式:

    QQ  E-mail:

    大家好!

今天我们又在语料库简单DIY这个讲座上和大家见面了。

时值七月,恰逢奥运前夕,想必祖国现在已经是百花齐放,欣欣向荣的一派盛事了。

无奈本人手头工作太多,不能在奥运前夕回到祖国,与国人一起欢度这个盛事壮举了。

就把这种心情转换为一种教学热情吧。

面对一直支持我的朋友们,本人无以回报,唯有多说一些,多教一些,也算是为祖国做一些力所能及的事情吧。

    首先我们来简单回顾一下上一讲我们所学的内容。

如果有想不起来的朋友,请翻看上一讲的帖子。

在上一讲中,我向大家介绍了语料库检索软件MonoConcPro2.2的基本功能,并且介绍了如何利用软件制作WordList,也就是我们所说的词频功能。

    我们还使用了软件的Frequence功能,建立了针对多个语料文件的词频数据统计表。

有兴趣的朋友,可以尝试使用这些内容,进行初步的语料检索和应用了。

虽然现在我们的教学还使用的是处理字母体系文字的MonoConcPro2.2,但是从长远上来说,其实我们只需要掌握一种查询检索软件,我们就可以掌握几乎所有的语料库软件。

因为大体上,这些软件的处理功能都是类似的。

有的朋友向我询问,学习这些软件觉得太复杂,有没有更加简单的方式来掌握语料库?

---对于这样的问题,我真的不知道该怎么回答。

万丈高楼平地起啊,这是基础,基础都掌握不好,怎么能去处理庞大的语料数据呢?

只有掌握了基础,才能应对复杂的语料检索需求,才能在茫茫如大海般的预料信息中筛选自己所需要的部分,也才能真正实现语料库,这个语言研究工具的价值。

    好了,不说闲话了,赶紧进入今天的正题。

                          语料库软件高级搜索的建立--MonoConcPro2.2

    本软件是Athelstan开发小组,于1996年开发的语料库比较检索工具。

目前,我的服务器上提供学术性下载,下载地址:

      -u.ac.jp/whistle/corpus/MoconcPro2.2.rar  

      (本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。

请慎重下载,小心使用!

进阶功能

Concordance语料检索索引的建立

  Concordance--这东西是干吗的啊?

语料检索索引?

这是什么东西啊?

说得那么邪乎,看不出个所以然来。

  其实,语料检索索引,是我们语料库使用的核心,是使用语料库检索软件进行检索的主要目的。

我们需要查询某一个词,某一个词的搭配,某一个短语等等,都是在这个功能的强大支持下实现的。

下面我们就来好好说说这个强大而又极端复杂的检索功能。

  首先,我们打开MonoConcPro2.2,然后导入一篇文章。

我导入的是附带在Sample文件夹下的文章罪与罚.txt文件。

这一步如果不能实现的朋友,赶紧去看上一讲的帖子去。

    然后,我们可以看到软件中出现了功能选项的那一行菜单。

位置就在原来Files的那一行。

找到Concordance然后选择里面的Search

这个时候就会出现以下的画面

我们可以看到在软件的中间,出现了一个对话框。

这个对话框就是用来输入指定查询的字母,数字,单词,短语,句子等信息的对话框。

那么我们现在在里面输入一个英语文章中经常出现的定冠词:

the

然后我们点击ok,这个时候我们就看到软件开始自动寻找所需要查询的指定信息,并罗列出所有的检索结果。

图中,蓝色的部分就是我们查询的the,每一行都是查询的结果,也就是the所在的文章中的句子,或者句子片断。

我们点击每一个含有the的句子,就可以在窗口中看到原文。

红色和深红色字体是出现频率较高的词汇,这里不多做说明。

很多朋友看到此,已经觉得这软件自己已经掌握了。

的确,看到这一个对话框中的内容,所有使用过在线语料库的朋友,都会感到异常的熟悉和亲切。

这就是我们使用语料库检索工具的关键所在---就是为了查询嘛!

这种形式我们称作KWIC模式。

全称应该是KeyWordsinContext。

我们一般在C+语言中常常会看到这个模式,一般是指定义一个应用程序的指定入口点。

在JAVA环境下,也使用类似的KWIC功能,来显示网页的LINK。

总之,这个模式应用的范围非常广,如果有兴趣的朋友,可以上网查查这个功能。

  我们看到上图中,查询的结果很多,很长。

翻看起来比较麻烦,比如要比较两个特定的语言环境下的the的用法,如果是上下罗列在一起的句子,那还好说。

但是如果两个句子之间相差几万个句子,那么我们比较起来就比较麻烦了。

MonoConcPro2.2在这个问题上,充分展现了其优越的人性化的一面。

我们在上图那个检索结果中,用鼠标右键点击我们需要的句子,这时候会出现一个右键菜单,里面提到了AssignLetter。

这是一个类似书签一样的功能,它主要实现的是实现标记功能。

并且,在后续我们还会讲到,利用AssignLetter功能,我们还可以直接对我们所标记的句子进行检索和罗列。

可惜的是,AssignLetter只提供了26个字母,我们也只能标记26个句子,这可能算是唯一的一点儿遗憾了。

上图左边出现的ad  z字母就是笔者任意标记的句子。

如果要去掉这些字母标记,我们只需要在刚才的右键菜单中选择

RemoveLetter或者RemoveAllLetters就可以实现了。

  那么我们对于刚才那个检索的列表中,不需要的句子,我们应该怎么处理呢?

不难,选择你不要的句子,然后选择功能菜单中的Display中的DeleteItem(s)就可以实现删除了。

当然,如果要选择复数以上的句子,那么只需要按住Ctrl键然后用鼠标去选取,就可以选择多个句子了,然后再使用DeleteItem(s)功能去删除就可以了。

  现在,我们掌握了查询,标记,删除语料的具体操作方法,是不是语料库中的语料就不再那么复杂繁琐,相反变得异常容易研究了呢?

---不是?

那我在告诉你一个更加强大的Sort排序功能,相信看完这个功能,你已经不再需要笔者的指导了。

    Sort功能是MonoConcPro中一个让笔者觉得最为强大的功能。

虽然这个功能本身还不是很完善。

开发人员在软件的说明中也提到了,这个功能尚处于开发阶段,目前的精确率(注意了,是精确率)还不是很高。

但是对于我们的应用语言学研究来说,这已经绝对足够了。

那么,这个Sort排序功能到底是什么东西那么让笔者兴奋呢?

  首先我们还是回到Search之后的画面

  我们可以看到,此时此刻的查询结果,是异常的纷乱繁琐,可以说出了具备指定的单词以外,没有什么规律可言。

因此,我们对这样的查询结果做一些简单的排序处理,这样我们就能更加直观地察看这些检索成果了。

其实Sort排序功能的基准,默认是26个字母的字母表顺序。

它将指定的选项按照字母表进行排序。

  我们打开Sort排序菜单。

映入我们眼帘的是一堆术语,下面我做一些说明。

以这里我们指定的检索单词the为例:

1  2ndLeft(以被检索单词the往左数第二个单词为基准)

2  1st  Left(以被检索单词the往左数第一个单词为基准)

3  SearchTerm(以被检索单词the本身为基准)

4  1stRight(以被检索单词the往右数第一个单词为基准)

5  2ndRight(以被检索单词the往右数第二个单词为基准)

6  1stRight,1stLeft(以被检索单词the往左数第一个单词+the+被检索单词the往右数第一单词+“,”的结构为基准)

7  1stLeft,1stRight(以被检索单词the往右数第一个单词+the+被检索单词the往左数第一单词+“,”的结构为基准)

8  OriginalOrder(恢复初期检索结果,不进行任何Sort排序)

9  AdvancedSort(建立高级,自定义Sort排序关系)

  看到此,估计很多人都望而却步了。

这都是什么东西啊?

根本搞不懂说什么啊!

其实这就是一种排序和选择排序的基准的一些设定。

1~5的排序功能,都是为了检索在the单词的左右位置都会出现一些什么样的词,方便大家研究词汇的搭配,词性,以及语言语境中的固定搭配等等。

而6,7的检索主要是针对文章中特有的含有逗号的句式结构来进行检索的。

说了这么多,估计大家还是懵懵懂懂的,那我还是来举个例子吧。

  上图,是我们检索the之后的结果。

大家现在来听着我说,然后试试看。

我们选择Sort菜单中的SearchTerm,然后在出现的子菜单中,选择1stLeft。

这个建立的排序的意思是:

以被检索的单词the本身为基准+以被检索的单词the往左数第一个单词为基准来排序。

简单来说,这句话就是要把the左边的第一个单词进行排列。

但是因为我们的排序要求,需要变成计算机语言,所以我们就需要以上的那样的繁琐的操作。

不过这样很好,这是一个很严密的逻辑过程,值得大家去学习。

  点击完之后,然后我们就看到了下面这张图。

这时候我们看到,the左边的一列单词,呈现出字典上的,按照26个字母的顺序进行排列了。

这时候我们仔细观察,就发现在the的前面会出现很多and,at,by,from,but,for等等频率极高的单词。

同样的,我们现在选取,Sort中SearchTerm中的1stRight选项。

聪明的朋友们,你们觉得会出现什么样的结果呢?

是的,我们就看到了,软件自动将the右边的第一个单词按照字母顺序进行了排序。

然后我们就看到了一个缤纷的名词世界,the后面全是名词,显示了其强大的定冠词作用!

  好了,休息一下吧,估计很多朋友的大脑已经开始绕星星了。

------------------------------------------------课间休息-----------------------------------------课间休息----------------------------------------------------

  继续Sort排序功能介绍!

刚才的课上,我们介绍了Concordance的强大检索功能,以及简单说明了辅助Concordance的超级Sort排序功能。

不知道大家听了之后有什么感想。

估计很多女士们已经忍不住关掉网页看连续剧去了,估计一些男士朋友也已经受不了了。

是啊,我们都是搞文科的出身,猛然一下子进入到这样的一个领域,大家都会

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1