XML在未来机器翻译中的重要性.docx
《XML在未来机器翻译中的重要性.docx》由会员分享,可在线阅读,更多相关《XML在未来机器翻译中的重要性.docx(7页珍藏版)》请在冰豆网上搜索。
![XML在未来机器翻译中的重要性.docx](https://file1.bdocx.com/fileroot1/2022-12/14/35b6bec5-0e93-4d25-a111-c3cb2c13c221/35b6bec5-0e93-4d25-a111-c3cb2c13c2211.gif)
XML在未来机器翻译中的重要性
XML在未来机器翻译中的重要性
作者:
金海龙(天主教)
XML的出现,使得个人为行业制订标准成为可能。
中国人对英语的热情已经超过其他国家,为学习英语的人制订一个特定的XML,就像为数学制订了MathML……
学英语需要字典,过去是到书店去买,现在是到网上下载。
开发英汉翻译软件,没有标准是不行的,
既然为数学和化学都制定了标准,也应该为开发翻译软件的公司或个人开发者制定一个标准。
天主教徒金海龙提出的“ECTML英汉翻译标记语言”,就是这样的一个标准:
专门为英语制订的标准。
ECTML基于XML1.0,是一个特殊的XML文档,是一个简单而高效的标准。
文档扩展名任然采用“.xml”,ECTML的全称是:
EnglishChineseTranslateMarkupLanguage,
中文名称:
英汉翻译标记语言。
下面是一个简单的ECTML文档(右边是其DTD):
单词库.xml
ECTMLDTD:
ECTML1.0.dtd
xmlversion="1.0"encoding="GB2312"?
>
ELEMENTDB(Rec*)>
ELEMENTRec(A,B,C,D)>
ELEMENTA(#PCDATA)>
ELEMENTB(#PCDATA)>
ELEMENTC(#PCDATA)>
ELEMENTD(#PCDATA)>
爱因斯坦的名言:
最简单的就是最好的,正好用在ECTML这里。
如果你阅读了下面的内容,就会了解ECTML,而放弃对ECTML的怀疑,你可以相信:
ECTML促进了XML在中国的发展。
一、帮助学习英语的人;
二、帮助开发英汉翻译软件的人;
一、帮助学习英语的人
很多中国人学习英语是为了从英文资料中汲取知识,一个人不经过十年的苦学,
是无法掌握英语的,ECTML的出现使得在一年之内掌握英语成为可能。
学习英语最难的就是记忆单词、词组、例句和句型,使用ECTML学习英语能加速记忆、并迅速加深对语句的理解。
看个例子就能明白:
英文:
Iamatree.
中文:
我是一棵树。
分析:
英汉翻译的核心就是“句型”,当学生第一次看到这句话,
首先会尝试用其它的名词替换“tree”,然后得出句型:
Iama名词.
即:
找出例句中的句型,并用句型造句,以后遇到,就套用句型进行翻译(这就是“句型”在翻译中的重要性)。
随着经验的增长,对一句话的认识也就越来越深,直到有了下面的分析:
这句话由4个单词和一个标点符号组成。
包含系表结构:
be+n.,中文结构:
是+n.
给这个结构取名叫:
系表结构;
包含一个词组:
atree,中文意思:
一棵树,
这个词组属于名词词组,相当于名词,所以取名叫:
n.;
单词“I”是代词,取名叫:
pron.,中文:
我;
整句话的结构是:
pron.+系表结构,取名字叫:
句子
如何用ECTML写出上面的语句分析?
可以按照下面的格式去写:
xmlversion="1.0"encoding="GB2312"?
>
atree
n.
一棵树
be:
1n.
系表结构
是:
1
I
pron.
我
:
1pron.:
2系表结构
句子
:
1:
2
注:
在A标记中写上英文结构或单词,在B标记中写上名字,在C标记中写上中文结构,在D标记中写上分析或者例句。
这么写作用很大,能加速对英语的学习。
如果学生掌握了系表结构,那么以后无论遇到多少
系表结构的句子,都能轻松翻译。
看下面的例句:
Heisaboy.他是一个男孩。
Theyare...他们是……
这两句都是系表结构,只要套用短语结构“pron.+系表结构”就能快速翻译。
用ECTML把一句句典型的话写成XML文档,能在短时间内锻炼出“分析句型”的能力。
精通英语的人都明白:
不知句子的成分,就无法翻译。
ECTML鼓励“共享ECTML文档”,共享文档的作用就是共享自己的经验,使不懂英语的人能够轻松阅读英文文档。
产业链
有学生的地方,就有钱赚。
ECTML的扩展名为何选用".xml"?
许多共享文档的网站都支持“.xml”的文档,为便于作者“共享文档得收益”,
所以把ECTML的扩展名定为".xml"。
国际的、中国的XX文库、Google文档都支持“.xml”格式的文档。
只要把ECTML文档上传到这些网站,作者就能赚钱,而学习英语的人又那么多,
所以下载量也会很高(作者赚的钱也就越多)。
为了钱,必定有许多人用ECTML写文档赚钱。
二、帮助开发英汉翻译软件的人
英语课本上有单词表,翻译软件上就得有单词库;
英语课本上有很多例句,翻译软件上就得有例句库;
以此类推,
英语课本上有句型,翻译软件上就得有句型库!
但是现在市场上的大多数翻译软件,没有句型库,使得机器翻译的质量一直得不到改善。
各个厂家的翻译软件质量相同,只能说自己的单词库包含了多少多少本字典(无法吸引顾客)。
在进行翻译时,句型库为何如此重要?
精通英语的人都明白:
‘句型’是翻译的核心,找不出句子中的句型,就无法确定单词汉意的正确摆放位置。
自然就翻译不出来。
对于初学者来说,不易理解这句话,下面以最常用的‘therebe’句型为例,进行论证。
只要学会了一个‘therebe’句型,以后遇到再多的‘therebe’句型就可以套用此句型进行翻译,就行了。
据此联想,若一款软件能记忆并理解‘therebe’句型,按照‘therebe’句型的结构去翻译‘therebe’句型,就能达到
很高的翻译质量。
以后翻译过程中要用到‘therebe’句型,直接用软件查询,就能得到译文,省去了大量脑力劳动。
若一款软件中有大量句型,那么就能自动翻译英文文档(辅助人类进行翻译)。
以前,或许有人这么想过,但是不知道该用什么格式记录句型,也开发不出能理解句型的英汉翻译软件。
现在,ECTML出现了!
使得英汉翻译变得简单(感谢天主把这技术赐给了他的子民:
天主教徒金海龙)!
ECTML就是用于记录句型,并帮助软件理解句型库的一个标准。
开发基于ECTML的英汉翻译软件,必是将来翻译世界的主流(XML也必因此而受推广)。
所以,W3C应当接受ECTML,把ECTML作为XML的一项重要应用,加以推出。
用ECTML是如何记录句型的呢?
请阅读《ECTML开发手册》。
ECTML简单易学,
以至于一个初中生30分钟之内就能学会。
常见问题
1
2
3ECTML易于记录句型,但不容易浏览,是否有一个XSLT文档?
答:
金海龙先生已经写了一个XSL文档:
ECTML1.0.xsl,内容如下:
xmlversion="1.0"encoding="GB2312"?
>
4stylesheetversion="1.0"xmlns:
xsl="http:
//www.w3.org/1999/XSL/Transform"xmlns="http:
//www.w3.org/TR/REC-html40">
5templatematch="/">
6
7
8
apply-templatesselect="DB"/>
9
10
11
12
template>
13templatematch="DB">
14for-eachselect="Rec">
15
16
结构名字: | value-ofselect="B"/> |
17
英文结构: | value-ofselect="A"/> |
18
中文结构: | value-ofselect="C"/> |
19
结构说明: | value-ofselect="D"/> |
20
21
for-each>
22
template>
23
stylesheet>
24使用的时候只要在ECTML文档的XML声明之后加入一行就可以了,如下所示:
xmlversion="1.0"encoding="GB2312"?
>
xml-stylesheettype="text/xsl"href="ECTML1.0.xsl"?
>……如果使用《鹰译2.0》,那就根本无需这个XSLT文档,《鹰译2.0》会自动用HTML5进行显示。
25什么人可以使用ECTML?
答:
只要是学习英语的,都可以。
26ECTML难学吗?
答:
ECTML只有6个标记,学起来相当容易。
27开发基于ECTML的软件难吗?
答:
ECTML易学,开发基于ECTML的软件有些难度,但对于国际上真正优秀的工程师来说,很具有吸引力。
天主教徒金海龙就已经开发出了基于ECTML的软件:
《鹰译2.0》,大家可以去看看。
28句型库的录入工作,适合个人?
还是团队?
答:
只要学会了ECTML,一边学英语,一边录入,就可以。
核心问题
句型是ECTML的核心,没有良好的ECTML句型库,翻译软件就无法精准地翻译。
谁能编写高水准的ECTML句型库?
要么是精通英语的高手(生活在国外的、且会说英语的,最好是翻译),
要么是精通ECTML思想的人。
精通英语的高手很少,但是精通ECTML思想的人却可以轻松锻炼出来。
一个人每天用一个小时的时间编写ECTML句型库,六个月之后,就能成为
一名精通英语的高手,可以达到“编写高水准的ECTML句型库”的要求。
看下面的句子:
英文:
Iamatree.
中文:
我是一棵树。
对于一个初学ECTML的人来说,只能找出句型:
英语结构:
Iama:
1n.
中文结构:
我是一棵:
1
名字:
句子
问题:
“中文结构”中的量词用的不合适,如果换成其它名词,或许就该用
量词:
个、条、双……
之所以出现如此的失误,就是因为:
编写ECTML文档的时间太短。
只要再多些日子,就会改进成:
英语结构:
Iama:
1n.
中文结构:
我是一[量词]:
1
名字:
句子
如此一写,就很合理。
让用户自己去选择量词,是很聪明的做法。
若过了六个月,那么就能找出更合理的句型。
编写ECTML需要大量的英语经验,我写了大量指导性的文档,欢迎大家阅读:
有关ECTML的最新消息,请到我的博客查询:
注意:
若要出售自己的ECTML文档,必须至少写过6个月的ECTML文档。