如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?.docx
《如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?.docx》由会员分享,可在线阅读,更多相关《如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?.docx(3页珍藏版)》请在冰豆网上搜索。
![如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?.docx](https://file1.bdocx.com/fileroot1/2022-10/7/f97453ba-651e-417d-ae20-21b7dba6e790/f97453ba-651e-417d-ae20-21b7dba6e7901.gif)
如何创建一个英汉双语语料库?
如何创建一个任意两种语言的语料库?
构建一个英汉双语语料库的主要步骤如下:
1、语料准备。
准备英汉对照的双语文档。
可以是两个文档,其中一个英文,一个中文;也可以是英中上下对照或左右对照的单文档。
无论是双文档还是单文档,都要注意原文与译文需要严格对照,这是后续软件识别的重要基础。
文档格式可以是office系列格式等,但最好是word这种简单的容易识别的格式。
如:
我们在word中准备一篇英中双语对照的文档。
2、语料对齐。
关于语料对齐,我以前专门写过一篇文章:
如何用最简单的方法创建双语平行语料库?
里面讲了几种对齐工具,我推荐的是Tmxmall在线对齐。
Tmxmall对齐功能的具体操作步骤我也写过文章,可参考:
双语平行语料库人工对齐工具说明│TmxmallAligner
我们准备好的英中文档对齐效果如下,将对齐好的文档导出,存为tmx格式。
3、在trados等CAT工具中新建翻译记忆库,把之前保存好的tmx文件导入即可。
以上就是自己构建一个英汉双语语料库的方法。
上述方法同样适用于建立中英语料库或其他任意语言对的语料库,如俄中、中俄、中葡、中日等等,只要在操作的时候选择对应的源语言和目标语言即可。
除了自己对齐语料存为tmx格式外,也可以直接购买Tmxmall公有云包月服务(里面有千万级句对的语料资源可供翻译时提取),或在Tmxamll语料商城上按需购买其他人放上去的各专门领域的语料库。