语料库常常利用统计方法.docx

资源描述

语料库常常利用统计方法.docx

《语料库常常利用统计方法.docx》由会员分享，可在线阅读，更多相关《语料库常常利用统计方法.docx（12页珍藏版）》请在冰豆网上搜索。

语料库常常利用统计方法.docx

语料库常常利用统计方法

语料库常常利用统计方式

第3章前几节对语料库应用中的几种主要技术做了介绍。

通过语料检索、词表和主题辞表的生成，可以取得必然数量的句子、辞汇或结构。

为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。

本章主要介绍语料分析中的一些常常利用统计方式。

语料库与统计方式

介绍相关统计方式之前，第一需要了解为何语料库应用中需要运用统计方式。

在节讲到文本收集时，咱们明白文本或会话组成了最终的语料库样本。

这些样本是通过必然的抽样方式取得的。

研究中，咱们需要描述这些样本的出现和散布情形。

另外，咱们还常常需要观察不同语言项目之间在必然语境中一路出现（简称共现）的概率；和观察某个（些）语言项目在不同文本之间出现多少的不同性。

这些需要借助统计学知识来加以描述和分析。

理论上说，几乎所有统计方式都能够用于语料库分析。

本章只择其中一些常常利用方式做一介绍。

咱们更注重相关统计方式的实际应用，不过量探讨其统计学原理。

这一章咱们主要介绍语料分析中的频数标准化（normalization）、频数不同查验和搭配强度的计算方式。

频数标准化

大体原理

通常语料检索、词表生成结果中都会报告频数（frequency,freq或rawfrequency）。

那么某词（如many）在某语料库中出现频数为100次说明什么呢？

那个词在另一个语料库中出现频数为105次，是不是能够说many在第二个语料库中更常常利用呢？

显然，不能因为105大于100，就认定many在第二个语料库中更常常利用。

这里大家很容易想到，两个语料库的大小未必相同。

依照通常的思维，咱们能够算出many在两个语料库中的出现百分比，如此就可比了。

这种情形下，咱们是将many在两个语料库中的出现频数归到一个一路基数100之上，即每100词中出现多少个many。

这里通过百分比取得的频率即是一种标准化频率。

有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。

实例及操作

频数标准化，第一需要用某个（些）检索项的实际观察频数（原始频数，rawfrequency）除以整体频数（一般为文本或语料库的总词数），如此取得每一个单词里会出现该检索项多少次。

在频数标准化操作中，咱们通常会在此基础上乘以1千（1万、1百万）取得平均每千（万、百万）词的出现频率。

即：

（注：

观测频数即检索词项实际出现的次数；整体频数即语料库的大小或总形符数。

）

例如，more在中国学生的作文里出现251次，在英语母语者语料中出现475次。

两个语料库的大小别离为37,655词次和174,676词次。

咱们能够按照上面的公式很容易计算出251和475对应的标准化频率。

另外，咱们还能够利用Excel或SPSS等工具来计算标准化频率。

比如，能够将实际观察频数和语料库大小如图输入相应的单元格，然后在C1单元格里输入=（A1/B1）*1000即可取得中国学生每千词利用more约为次。

要取得母语者more利用的每千词频率，只需点击C1单元格，将光标移至单元格右下角直至光标变成黑+时，按住鼠标左键，顺势下拉至C2格即可取得母语者每千词利用more的次数约为次。

如有更多频数数据需要标准化处置，可依一样方式求得。

图频数标准化

频数不同查验

上节，咱们通过将频数归到一个一路的基数，从而能够对不同频数加以比较。

但是，在统计学中，常常需要对参与比较的数据之间的不同是不是具有显著性加以综合查验。

在语料库数据分析中，最常常利用的是卡方查验（chi-square或χ2）和对数似然比（log-likelihoodratio，常简写为LL）。

两种查验方式的作用和实际操作类似，以下咱们重点讲解卡方查验。

这两种查验方式也能够用作搭配强度计算。

大体原理

与频数标准化不同，卡方查验除考虑到某个检索项在两个不同语料库中的出现频数和语料库大小外，还考虑到检索项在语料库不出现的情形。

例如，在1000词的文本中the出现50次，那么它不出现的情形就是余下的950次。

类似的频数数据，咱们用到的是2×2连列表（contingencytable）方式的卡方查验。

在统计学上，综合该检索项在两个语料库中出现和不出现的情形，统计学家提出了该检索项理论上的预期频数，其算法是：

表2×2连列表

某检索项出现频数

所有词出现频数

合计

语料库A

语料库B

a+b

c+d

合计

a+c

b+d

a+b+c+d

其中：

a=检索项X在语料库A中的实际频数

b=检索项X在语料库A中的不出现的频数

c=检索项X在语料库B中的实际频数

d=检索项X在语料库B中的不出现的频数

N=a+b+c+d=各项频数总和，即两个语料库累计大小

而卡方查验的大体公式为：

卡方查验的具体计算公式为：

实例及操作

研究问题：

有两个语料库，一个为口语语料库，总词数为1,714,443，另一个为书面语语料库，总词数2,593,452。

其中填充停顿（filledpause）词er别离出现9,589次和9,307次。

那么9,589和9,307是不是存在显著性不同呢？

这里能够采用卡方查验的方式（参见图）。

在配套光盘中，找到名为X2的Excel文件。

在打开的工作表中，按界面提示，别离输入Corpus1的总字数1,714,443和Corpus2的总字数2,593,452。

然后，在主体数据表框中FreqinCorpus1和FreqinCorpus2别离输入er别离的次数9,589和9,307。

这时，Chi-square列会自动出现相应的卡方值，这里是。

卡方值（自由度为1时）若是大于临界值,和，则表明该值在显著性水平,和的情形下是成心义的，即参与比较的两个数值（9,589和9,307）具有显著性不同。

为便于辨识和解读卡方值，咱们将所得的卡方值对应的显著性水平的p值也同时提供，并按所处的置信区间标定星号（*），在,和显著性水平下别离标为*、**和***。

表格最后一列的“+”表明er在Corpus1中利用频数要多于其在Corpus2中的频数，即咱们常说的频数过量利用（overuse）；反之，“-”号为利用不足（underuse）。

回到咱们的问题，er一词在两个语料库中的利用频数具有显著性不同，且er明显在第一个口语语料库较多利用，可理解为属于口语特征词。

为方便批量实施卡方查验，判别词项在两个语料库中出现频数的不同。

该卡方查验计算器支持一次完成多个卡方查验运算。

操作方式是，先输入Corpus1的总字数和Corpus2的总字数，然后将某组词项在Corpus1和Corpus2中的出现频数别离拷贝到FreqinCorpus1和FreqinCorpus2列中，即可取得所有词项跨语料库不同的卡方值和显著性水平。

图卡方查验计算器界面

配套光盘中同时附有对数似然比计算工具（Log-likelihoodRatioCalculator），文件名为。

也是查验词项跨语料库不同显著性的常常利用方式。

其操作步骤与卡方查验计算器相同，数据的解读方式也一样。

在此不赘述。

搭配强度计算

大体原理

搭配分析的计算方式在实际应用中主要有两种处置方式：

以MikeScott的WordSmith为代表的经典搭配计算法，和以StefanEvert提出的BNCweb的搭配计算方式。

两种方式的主要不同在于是不是将跨距作为搭配的核心考查要素（WordSmith计算Z值时用到跨距，BNCweb的算法中多数都用到跨距）。

计算搭配强度的主要算法包括：

互信息（MI，mutualinformation和MI3）、Z值（Zscore）、T值（Tscore）、Log-Log值、卡方值（χ2）、对数似然比（Log-likelihood）、Dice系数等。

这些方式各有好坏。

需要略加说明的是，卡方和对数似然比既可用作查验单个词项跨语料库频数不同的显著性。

也可作为查验两个词在同一个语料库中，必然跨距内的共现强度。

以下对不同搭配强度计算方式的适用性做一简介（这里以BFSUCollocator工具为例）。

更多相关介绍可参阅本章结尾处提供的相关参考文献和网络上有关collocation的讨论。

以下是利用BFSUCollocator工具提取的but一词的搭配情形。

在下面的示例中，咱们选用的是光盘中NS_written\raw文件夹下的。

【Settings】中【SetDataType】选的是【Raw】。

点击【Collocate】选项卡后，跨距设为左5右5。

点击【Run】即可得结果。

图显示的结果是以搭配词的实际出现频数排序的。

双击搭配结果的每一行，界面窗口下方即会显示含节点词和搭配词的索引行。

本节所举实例利用的检索词（节点词）为but。

搭配强度值小于0的情形，在BFSUCollocator工具里都归为零。

图按搭配词频数高低排序的搭配结果

从图能够看出BFSUCollocator工具运行后能够一次同时取得MI、MI3、Z值、T值、Log-log值和对数似然比。

若是咱们需要取得按互信息值排序的搭配词时，只需点击MI（或MI3列的题目行即可，若是点击第一次所列结果为升序排列，再点击一次，则可取得降序排列的结果）。

图中的结果显示的是以第3列f（c），即搭配词（collocates）的频数降序排列的，界面下方窗口显示的是含but和最高频搭配词the的索引行。

互信息（MI，mutualinformation和MI3）

图按互信息值高低排序的搭配结果

互信息值表现的是节点词和搭配词之间的彼此吸引关系。

互信息值越大，说明两个词之间的搭配强度越高。

互信息值可能为正值或负值。

如互信息值为负，则表明两词之间出现彼此排斥的现象，即两词不偏向于在必然语境内共现。

Hunston（2002：

71）提出在实际操作中以互信息值3作为临界值，即互信息值大于3的搭配词视作强搭配词。

但是，从图中的结果能够看出，互信息值算法存在一个明显不足，即互信息容易将低频词（如出现2次的cannon和出现一次的数字词255-page等）视作强搭配。

为了降低低频词在经典互信息算法中的权重，有学者将低频词同节点词的共现频数做了立方处置，通过取对数后，最终的互信息值大大降低了。

这即是下面看到的互信息3（MI3）值的算法。

MI3

图按互信息3值高低排序的搭配结果

从图中能够看到，高频词the、of、a，和标点符号（，）。

这些本身在语料库中的整体频数很高，同时也与节点词but共现频数超级高的词被提到前面。

这些词项被认定为强搭配词比经典互信息算法所得的搭配词似乎更符合but的语言利用实际。

Z值

图按Z值高低排序的搭配结果

虽然同互信息算法和原理不一样，但Z值计算出的搭配词结果与经典互信息得出的结果有些相似，仍然有偏重低频词的问题。

T值

图按T值高低排序的搭配结果

在咱们那个例子中（见图），出现的搭配词以高频词为主。

文献中一般以为T值搭配计算有偏重高频词的问题。

T值的约定俗成的临界值是2。

Log-log值

为避免搭配计算中偏重高频词（以功能词占多数靠前）的问题，英国学者AdamKilgarriff提出了搭配log-log计算公式，主如果在公式中增加了节点词和搭配词共现频数的对数值，将高频词的权重降低，从而使其他实词搭配词的权重得以提高。

从图能够看到，排在前面的搭配词是以实义词为主。

若是咱们要借助搭配词进行内容分析的话，那么log-log似乎更适合。

图按log-log值高低排序的搭配结果

对数似然比

图按对数似然比高低排序的搭配结果

对数似然比是被以为比较好的一种搭配发觉方式。

但是，一般以为各类搭配统计方式，很难说哪一种方法是最合理或最正确。

咱们建议一方面可按照研究实际选择搭配统计方式；另一方面，还能

展开阅读全文