基于Apache Tika在线辅助人工翻译系统Word文档下载推荐.docx
《基于Apache Tika在线辅助人工翻译系统Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《基于Apache Tika在线辅助人工翻译系统Word文档下载推荐.docx(15页珍藏版)》请在冰豆网上搜索。
第二部分阐述系统的设计、系统实现和测试两大章节。
第三章介绍了整个系统功能模块设计,第四章详细的阐述系统中关键的功能模块的实现,最后给出翻译系统的测试结果截图。
最后总结与展望部分,总结了项目实现过程中的经验和问题,指出目前的不足之处,对后续功能扩展进行展望。
关键词:
ApacheTika,句子边界探测
OnlineComputerAidedTranslationSystemBasedonApacheTika
Abstract
OnlineComputerAidedTranslationSystemisdesignedforhelpingprofessionaltranslatorssimplifytheonlinetranslationworkintheearlystage.Itprovidestranslatorsthefunctiontouploadandmanagetheoriginaltranslationdocuments.Thesystemcananalyzetheoriginaltranslationdocuments.ExtractcontentfromthedocumentdetectthelanguageofthecontentbyusingtheApacheTika.Afterextractingthecontent,thesystemperformSentenceboundarydetectiononthetranslationcontent.Thetranslationsentencescanbeshownonthewebsiteinoriginalorder.
Thisthesisisdividedintotwoparts,fourchapters.ThefirstpartincludestwochapterstheIntroductionandTheRelatedWork,thefirstchapteristheintroductionpartmainlyintroducesthebackgroundandsignificanceoftheproject;
Thesecondchapteristheintroductionofrelatedwork,mainlyincludingtherelatedtechnologyandintroducestheframestructureoftheproject.
Thesecondpartincludestwochapters.Itincludessystemdesign,systemimplementationandthetestingofthesystem.Thethirdchapterintroducesthedesignofthewholesystemfunctionmodule.Thefourthchapterindetailinthispaper,thekeyfunctionalmodulesinthesystemimplementation.Lastgivesthescreenshotsofthesystemtestresults.
Thefinalpartofthethesisisthesummaryandprospectoftheproject.Summarizesincludestheexperiencefromtheprojectandshortcomingswecurrentlyhave.Introducethefollowingworkwecandointhefuture.
Keywords:
ApacheTika,SentenceBoundaryDetection
第一章引言
1.1项目选题背景及意义
在全球化的背景下,翻译成为世界各个不同语言文化之间相互交流的基本保障,无论是口语翻译还是书面的文字翻译,其需求量都在不断的增大,人们也在不断的追求翻译的质量提高和翻译效率提升。
人们甚至开始期盼计算机可以实现完全自动的翻译,但是很可惜因为人类语言的博大精深,即使随着人工智能的快速发展,计算机仍然无法完全代替人类的思维去进行完美的翻译。
因为专业的翻译要求不仅仅局限于文字表面的含义,更要包含文字在上下文中的翻译语境、文字背后包含的典故历史等等,像在商业会谈、国际正式会议、大型赛事等等这些极其重要的场合里,要使用的翻译内容都是需要十分的严谨和精确,专业的人工翻译地位任然是无法被取代的。
虽然目前计算机的翻译无法完全实现取代人脑进行翻译工作,但是还是可以通过运用互联网等一系列技术手段使得专业翻译人员的翻译工作变得相对轻松简单。
如今的翻译工作,从原本的纸上翻译,已经逐渐的转移到计算机上进行。
于是就出现了各种辅助专业翻译工作人员工作的客户端版的计算机辅助翻译工具,但是这一类的工具,往往过于复杂,价格也相对昂贵,而且也不利于专业的翻译人员之间的译文交流分享。
[9]
如果能实现为专业的翻译人员提供一整套基于交互式WEB技术的在线辅助翻译系统(WebCAT),来辅助专业翻译人员的翻译工作,能够让用户上传已有的文件,建立起翻译原文以及译文的记忆库,存储用户翻译的语料,通过进一步建立翻译记忆库(TM)实现专业人工翻译结果的重用,能够实现将相似的翻译结果提示给用户,供后面翻译的人员进行检索和参考,将大大降低专业翻译人员的工作量,这样可以使译者能够将精力专注于语言的分析和解释,而不用耗费大量的时间在翻译文档的处理和翻译内容的规整上。
[6][12]
一个完善的在线辅助翻译系统,将可以实现翻译用户对自主上传原翻译文档的管理。
用户在使用翻译系统的时候,势必要将翻译的原文提交给系统。
对用户上传翻译文件进行预处理,先需要对翻译文档进行信息的解析与抽取,将整篇大段的文章,在用户提交的时候就以句子为单位,通过句子边界探测划分为一个个小的部分,存储到翻译数据库中,方便用户进行自主选择翻译,这样能大大简化翻译工作者本职语言翻译外的工作量。
因此用户文档和文本内容的预处理,将成为实现整个完整在线辅助翻译系统中最基础的部分,使后续翻译记忆库的建立成为可能。
1.2课题项目的主要工作
本课题主要研究如何设计并实现在线翻译辅助系统中,如何运用开源的ApacheTika的文档分析接口,实现对用户上传翻译原文文档的预处理工作,为后续实现翻译系统历史的检索以及翻译结果的辅助校对等功能奠定基础。
项目具体的实现要求如下:
首先,利用开源的ApacheTika文档处理工具,为在线辅助翻译系统实现对不同类型翻译原文文档的上传功能,支持用户上传pdf、Word等一系列,常见类型翻译文件到在线辅助翻译系统中。
通过Tika实现对文档类型的探测,将文档中的文本信息以及文档元数据信息以字符串的形式提取出来,再对文档内容进行语言的识别,为下一步句子边界作准备。
其次,依据Tika从上传文件中提取的文本内容,对原始大段大段的文章进行句子切分。
第一步工作中Tika可以探测到相应的文本语言信息,依据提取到的语言信息,选择相应语言的切分方法。
其中将利用Lingpipe自然语言处理工具包中的句子切分模块,对英文文本内容进行句子边界的探测,重点考虑到英文中类似于“U.S”这样缩写词汇对句子边界划分结果的影响,对于中文的翻译内容,则直接采用依据文章标点符号,正则表达式匹配的方法进行句子划分。
接下来,要实现对在线辅助翻译系统(WebCAT)前端的设计,针对宽屏显示器,将处理好的原文内容和译文分栏并列显示给用户。
用户可以在翻译界面中对原文进行逐句翻译,将原文(无论是PDF还是Word)中的文章排版方式、语句顺序呈现于前台,为用户上传的PDF和Word文件构造一个可以供用户进行翻译工作的统一的HTML界面。
最后,是对翻译系统的整体框架的实现和测试。
根据选择的系统架构,设计并实现相关的类和方法,完成整体功能。
功能完成后,再进行系统测试,以保证功能基本满足了需求。
同时进行代码审查,尽可能的优化代码的结构。
1.3在线翻译系统意义及现状
目前市场上比较流行使用的翻译系统包括有SDLTradosStudio,GoogleTranslatorToolkit等翻译服务工具。
GoogleTranslatorTookit(Google翻译工具包)其属于辅助翻译一体化的服务工具,它的功能在于,不仅限制于机器翻译和主动为用户提供翻译服务,还会把用户人工翻译过的内容,存储到翻译记忆库中(TranslationMemory,缩写为TM),等用户再一次翻译到相似的句子时,GoogleTranslatorTookit会自动的在数据库中进行匹配查找,如果查找到匹配的相似语句段,则会提示用户可以选择一个参考译文。
[7][8]此工具的一大好处,是可以保留用户上传的原文件格式,使用户仅仅需要专注于翻译,而不用考虑译文的文件格式,从而提升了翻译效率。
但是GoogleTranslatorTookit存在的一个问题是该工具在国内使用的开放性有所限制,并且用户上传提交的文件格式不是那么全面,例如不支持PDF上传。
另一个问题,GoogleTranslatorTookit在使用时必须保持是互联网联网状态,在离线以及企业内网的环境中无法得到很好的应用,并且用户翻译的原文数据、译文的结果等都是由Google完全控制的,对商业项目来说存在一定的安全性弊端。
SDLTradosStudio是一款桌面级的计算机辅助翻译软件,它同样也是基于翻译记忆库和术语库技术的。
SDLTradosStudio的优势在于它的操作界面清晰,无论文件类型如何,原文和译文都能够清晰地显示在界面两侧,用户体验度好。
此外,用户能以多种不同的方式定制自己熟悉的编辑环境:
例如键盘快捷方式、文字编辑的颜色和文本大小等等,用户都可进行自定义,从而最大程度地提高工作效率和舒适度。
但是SDLTradosStudio作为一个本地的辅助翻译软件,并没用充分的利用上互联网的优势,在多用户协作翻译、以及译者之间的分享推荐交流方面存在缺憾。
并且软件的价格十分的昂贵,一般企业很难承受,单机版Trados软件的价格就已经万元以上,服务器版更高达十万元以上。
[10]
1.4文件处理技术意义及现状
上传到互联网上的数据将会以各种不同的格式文件被存储。
例如、如文本(.txt)文档,Word(.doc,.docx),PDF文件,图像(.jpg)格式等等,形式纷繁复杂。
因此,应用程序例如:
搜索引擎和内容管理系统等,如果希望从这些文档类型中提取数据的信息,就必须要寻求额外的技术支持。
如果不使用ApacheTika开源工具,对不同的文件类型需