The Development and use of Machine Translation system and computer-based translation tools

( 机器翻译系统及翻译工具的开发和使用 )

John Hutchins

University of East Anglia, Norwich NR4 7TJ, England

chris   doubtfire补译了第八小节内容)

原文刊载于“International Conference on MT & Computer Language Information Processing

(机器翻译和计算机语言信息处理国际会议)

1999.6.26 - 6.28 北京

 

摘要:这篇文章综述了当前计算机翻译软件的需求和使用,着重

讨论了如何设计翻译系统使其质量能达到可出版水平,其中包括

开发受限语言翻译系统,翻译工作站,及软件本地化, 同时本文

还涉及到如何开发非翻译家使用的翻译软件,特别是用于浏览Web

页面和用于其他Internet应用上的翻译软件,并讨论了未来需要以

及正在开发的系统。最后一部分比较了一下几种适合于人译、机器

翻译,机助人译的翻译方法。

 

 

关键词:机器翻译,机助翻译,翻译工作站,多语系统

 

  翻译的几种需求 Types of Translation Demand

 

       当我们综述机器翻译系统和翻译工具的发展和使用时,很重

要的一点就是要区分四种基本的翻译需求:第一,传统型,它要求翻

译结果和人(翻译家)翻得一样好,即翻译结果达到出版水平,不管

是否真正印成铅字并当成商品买出,也不管是不是只在公司或单位内

部用。第二种需求对翻译质量要求稍微低一些,尤其是对文体(style)

要求低些,用户这时最有兴趣的是想了解某篇文章的基本内容,常常

是越快越好。第三种需求,对话双方一对一的交谈(电话,Internet

聊天室)或无需写在纸上的演讲(如外交场合的谈话)。第四种需求

领域是信息检索,信息抽取,数据库访问的多语系统里所用的翻译。  

 

       第一种需求使用机器翻译是为了传递思想(dissemination.

自从六十年代开始开发机器翻译系统时起,这种需求可以说在某种程

度上得到了满足。然而,要想达到用户需要的质量,机器翻译输出结

果常常需要由翻译家修改或“后编辑”。常常这些修改是实质性的

(是必须改的),因此机器翻译系统实际上只是产生了一个“草稿型”

译文。要么,翻译前输入文件必须做规整(即对所用词语和句子结构

做“限制”),这样机器翻译系统才不至于产生那么多必须修改的错

误。有些机器翻译系统只能处理领域非常狭窄的内容和语言风格,这

时才需要很少或不需要文本的前处理。  

 

       最近几年,作为传播思想目的之用的机器翻译系统由于机器

翻译工具的开发(如术语数据库和翻译记忆器(translation memory)

已经大大改进了。机器翻译系统被集成到写作和出版过程中。“翻译

工作站”比翻译家更有吸引力。在翻译工作站中,翻译者是计算机设

备的主动控制者,他们可以随意选择接受或拒绝翻译结果。而在机器

翻译系统翻译人员是机器的附属品,他们仅能对计算机得到的输出进

行编辑、修改、重译。

 

       第二种需求,即为了吸收信息(assimilation)而使用机器

翻译系统,已经事实上作为第一种需求(dissemination application

的副产品得到了实现。既然机器翻译系统还没有(也尚不能)产生出

高质量的译文,有些用户觉得他们能从未经编辑的译文中找出(猜出)

他们需要的东西。毕竟翻译出一部分总比一点没有翻译要好,尽管译

文结果很糟糕。随着市场上PC机器翻译系统越来越廉价,这种需求大

大增长了。

 

       第三种需求,即以交流信息为目的的机器翻译,情况正在很

快变化。在这种情况下,不可能由人来翻译。需要的是马上得出翻译

结果以便传达信息的基本内容,不管输出多么糟糕。机器翻译系统正

在探索如何“自然”地扮演自己的角色,因为它的特点是能够事实上

实时在线地运行,而且不可避免地质量较差。另一种机器翻译用于人

际交流的情况是口语翻译系统的开发,它吸引了很多人研究,在电话

交谈,商务会谈中使用。这里话语语音合成(speech synthesize)

自动翻译的难点显然是很难对付的,但仍然正在取得一定进展。将来,

尽管还遥远,我们可以指望在非常受限领域里有在线的口语机器翻译

系统。

 

       第四种机器翻译应用,是信息访问系统(information access

systems)的组成部分,是把翻译软件集成到(1)数据库的全文搜索和

检索系统(一般是科学,医学和技术期刊杂志电子版),或文献信息

检索系统;(2) 从文本,特别是新闻报道中提取信息(亦即产生细节

知识)(3) 对文本进行综述的系统;(4)查询非文本数据库系统。目前,

有几个这方面的项目正在欧洲进行,目的是使所有欧盟成员国都能访

问数据和信息源,无论用什么源语言。

 

  历史背景       Historical Background

 

       自动翻译系统的研究开发已经进行了50年了——事实上自从

本世纪40年代电子计算机诞生之日起就开始了计算机应用于语言翻译

的探索。之后的许多年,机器翻译系统主要是基于一个双语字典直接

翻译,几乎没有什么细致的句法结构分析。 直到八十年代,计算语

言学进展得出了更加复杂的方法,一些系统采用了间接方法进行翻译。

这时,源语言文本被分析转换成某种“意义”上的抽象表达形式,相

继有一系列程序识别词结构(词法分析)和句子结构(句法分析)以此

解决歧义问题(语义上的)。后者包含识别多义词的模块(如英语中,

light 既是名词(光),又是形容词(轻);solution既是数学术语

(解)又是化学术语(溶剂)),还包含识别正确语义关系的模块。

(如:The driver of the bus with a yellow coat,涂着黄色涂料

汽车的司机/穿着黄色外套的汽车司机) 人们希望抽象表达是无歧义的,

并为生成一个或多个目标语言提供根据。有一种方法,抽象表达设计

为一种与具体语种无关的“中间语言”,它可以作为许多自然语言的

中介。这样,翻译就分成两个阶段:从源语言到中间语言,从中间语

言到目标语言。另一种间接方法(更常用),表达首先转化成为目标语

言的等价表达形式。这样,翻译分成三个阶段,输入文本分析成为抽

象的源语言表达;转换成为抽象的目标语言表达;最后生成目标语言。  

 

       直到80年代末,所有这些系统都在开发之中,确实目前正在

商业运作的翻译系统都可以分为三个基本类型:直接型的,中间语言

型的,和“转换”型的。最有名的大型机器翻译系统本质上是“直接

翻译”型的,如Systran, Logos Fujitsu(Atlas). 然而,是“改

进”的直接型,这些系统和他们的前一代不同,是高度模块化的,很

容易修改和扩展。如Systran系统,开始设计为只能翻译俄文到英文,

现在可以进行很多语种之间的翻译。Logos, 开始只开发德语到英语的

翻译市场,现在可以翻译英语到法语,德语,意大利语,以及德语到

法语,和意大利语。 Fujiitsu Atlas 系统,至今仍把自己局限于英

日,日英的翻译。

 

       最重要的大型机“转换”型机器翻译系统是METAL,是八十年

代德国西门子公司提供大部分资金支持的。直到八十年代末METAL才面

市,销售状况很不好。九十年代,METAL的开发权转给两个单位(GMS

LANT),组成比较复杂。最有名的采用“转换型”方法的是两个研究项

目,一个是GrenobleGETAAriane,这是一个回到六十年代的机器翻

译研究项目,另一个是欧洲共同体委员会提供基金的Eurotra项目。

Ariane有希望成为法国国家机器翻译系统,曾有计划把它集成进Eurolang

(见下文)翻译家工作站中,但最终无一实现。至于Eurotra,无疑是最

复杂的机器翻译系统之一,但经过西欧许多国家几百个研究人员近十年的

努力,仍未能开发出投资者需要的工作系统(working system)。八十年

代末,日本政府机构出资支持开发用于亚洲语言之间的中间语言系统,有

中国,泰国,马来西亚和印度尼西亚等研究人员参加。同样,这一计划

历经十年也未能开发成功。

 

  政府和非商业目的应用 Governmental and non-commercial use

 

       早期的机器翻译系统安装于国家和国际的政府机构和军队中,主

要原因是只有他们才付得起昂贵的计算机硬件设备费用。美国空军于1970

年研制Systran,目的在于将俄国军事方面的科学技术文献翻译成英语。虽

然有些文献经过编辑,大部分译文输出都直接交给用户未做修改;据称技

术报告翻译准确率达到90%以上。现在美国国家空军情报中心,接管了美国

空军的翻译服务,可以为美国政府提供广泛的翻译服务(许多不做译后编

辑)。除了俄英翻译,Systran还有从日语、汉语、朝鲜语到英语的翻译,

目前正在开发从塞尔维亚-克罗地亚语到英语的翻译。

 

       在欧洲,最大的翻译服务是属于欧洲委员会(European Commission)

那是最早安装机器翻译系统的单位之一。从1976年开始,它一直在用Systran

将英语翻译成法语。后来,又开发了很多语种之间的翻译版本,覆盖了欧盟

各语种之间的翻译需要。虽然很多法律文件仍需要人工翻译,Systran系统仍

越来越多地得到使用,不仅在翻译内部文件(有或没有译后编辑),而且在

辅助官员们编写非母语文章时发挥作用。

 

  技术文档的生成 Production of technical documentation

 

       直到九十年代,一般认为机器翻译系统是要产生达到出版水平的文档,

主要是(但不仅仅是)科学和技术性的文档,。换句话说,机器翻译系统可以

用于需要雇佣专家才能做的翻译工作。显然,实际机器翻译的输出还不适于直

接使用,还需要做大量修改才能达到出版水平。因此翻译家被雇来做“后编辑”,

在这种情况下,机器翻译系统的使用变成了一个经济问题。只有机器与人之和

在质量和速度上优于只雇人做翻译,并且成本低廉时,机器翻译才会有生存空

间。

 

       尽管今天机器翻译系统还有其他用处,如上所述,这种应用(指技术

文档的生成)仍然是最重要的,特别对大型机系统(mainframe)的供应商和

开发商来说(Systran Logos)。他们的主要客户和用户是全球市场出口仪器

设备的跨国公司。这时需要翻译产品的市场宣传材料和技术资料。技术资料的

翻译通常量非常大。一件设备的操作手册可能多达上千页。而且新机型出来还

常常要做手册的修改。除此之外,必须保证翻译的一致性,名词术语必须统一。

技术资料的翻译量之大通常使人望而却步。为了取得最大的效率成本比

(cost-efficient),应该将机器翻译系统和公司技术资料编纂工作集成起来。

从一开始的编写到最终的出版发行。专门为技术资料的编纂人员开发的系统已

经将翻译和出版过程无缝连接起来。这些编写人员不仅要保证术语翻译的准确,

而且要保证在线手册风格和语法的正确。

 

       有许多例子说明长期使用机器翻译系统翻译多语种技术文档取得的成

功。最有名的例子是加拿大的Lexi-Tech公司利用Logos系统进行资料翻译,开

始是为了将海军护卫舰维修手册翻译成法语。为此,该公司曾建立一个服务中

心专门负责承接各种翻译项目。Ericsson, Osram, Oce Technologies,SAP

Corel 也曾使用Logos系统翻译。 Systran 有许多大客户,如福特汽车公司,

通用汽车公司, Anospatiale, Berlitz, Xerox,等。 METAL 德英翻译系统曾成

功应用于一些欧洲公司,如:Boehringer Ingelheim, SAP, Philip,及瑞士联

合银行。

 

       大公司成功安装机器翻译系统有一个前提条件:即用户希望在一个特定

领域内(主题,产品等确定)翻译相当大量的资料。必须合理地保证一定的术语

数据库和字典维护的财政费用。不论公司的资料是否自动产生,都希望术语的使

用保持一致性。甚至许多公司坚持使用他们自己的术语用法,不接受其他公司的

用法。这种一致性如果不使用自动翻译系统是不可能维持的。然而,在使用机器

翻译系统前,确实需要事先建立好一个术语数据库,其中必须包括用户的特殊要

求,或至少必须承诺开发一个数据库。

 

       同样原因,经常希望机器翻译系统得出多个目标语言的输出。大多数

大型机器翻译系统都多多少少面向特定用户对文件中发现的特殊语言进行专门

处理(定制),比如对常见句子或子句结构加些专门的语法规则,处理字典时

加一些特定规则。这样的定制的工作量可能是不合情理的,除非输出的是好多

种语言。

 

   受限语言和特定领域系统  Controlled Language and domain-specific system

 

       在这些情况下,人们发现对源语言加入很大程度的限制通常是可行的。

一个早期的有名例子是Xerox公司使用的Systran系统。在Xerox公司,技术文

献的作者必须用所谓的多国特定规格的英语(Multinational Customized

English)来编写文件。这时不仅某个术语的说法确定下来,而且怎样造句也

确定下来了。这种做法的好处是,排除了许多机器翻译系统难以处理的输入

歧义,输出质量更好,更快地同时变成多个其他语种,可以生成更多容易理

解的英文资料。这些优点已经被其他跨国公司认同。“受限语言”用得越来

越多,例如Caterpillar公司设计了他们自己独特的英文格式,以便使用

Carnegie Mellon大学开发的基于知识的机器翻译系统。还有好多公司要求对

某一特定用户建立“受限”语言的机器翻译系统。最早的是纽约的Smart公司。

Smart公司开发的系统主要客户有: Citicorp, Chase, Ford, General Electric,

等。每个都包含一个所谓对英文文献“正规化”的系统。这一部分非常重要,

以至于真正的翻译过程被看作为它的“副产品”。Smart系统可以翻译从英语

到法语,德语,希腊语,意大利语,日语和西班牙语。最大的Smart用户,可

能是为加拿大就业部设计的系统,用来翻译就业广告等信息。

 

       在欧洲,荷兰的Cap Volmac公司和比利时的Lant公司,也同样提供

类似服务,用他们的受限语言软件为各种客户建立专业翻译系统。Cap Volmac

Lingware 翻译中心是Cap Gemini Sogeti 集团的荷兰附属机构。多年来,这

家软件公司一直在建立纺织业和保险业的受限语言系统。主要是从荷兰语翻译

成英语。 然而最成功的面向客户定制的机器翻译系统可能是LingTech A/S开发

PaTrans系统,将英文专利翻译成丹麦语。这一系统是建立在参加欧洲委员

会的Eurotra项目时所获得的方法和经验基础之上的。

 

       越来越多的公司和单位正开发他们自己的机器翻译系统,而不是

购买商用系统。早期就是这样的特点。加拿大有一个英法天气预报的机器

翻译系统(后来又有法英系统),是一个面向特定客户的系统,当时是面

向加拿大环境服务中心的系统。值得指出的是在亚特兰大奥运会上成功运

行了各种机器翻译系统。

 

  翻译工作站 Translation Workstations

 

       到了九十年代,翻译工作站(或翻译家工作台)的出现拓宽了

大规模翻译的可能性。将各种计算机工具集成在一起让翻译家使用,

这种想法首创于八十年代,特别是随着ALPS的出现。翻译工作站集成了

多语种字处理软件:接收和发送电子文档工具、OCR设备、术语管理软件、

协调工具, 特别是“翻译记忆器”。“翻译记忆器”让翻译者可以方便

地将原始文本和翻译文本并列地存起来,也就是把相应的源句子和目标

句子对齐。这样翻译者可以从翻译记忆器中一种语言中查出一个短语或

整句,然后在另一种语言中显示它的翻译结果。匹配可以是精确的,也

可以是模糊的,按照匹配的贴近程度排列。

 

       一个大公司,技术文献,技术手册经常经过很多次修改。其中

大部分未经变动。有了翻译记忆器,就可以把曾经翻译过的部分直接取

出来再利用。即使不是精确匹配,显示出的部分经过小小修改也是可以

利用的。对那些在翻译记忆器中找不到的词汇或短语,还可以访问术语

数据库,尤其是公司对术语的译法有特殊要求的。另外,许多翻译工作

站提供使用象 Systran,Logos,Transcend 这样的机器翻译系统接口。

翻译者可以任选使用它翻译全文或片段,可以接受或拒绝其翻译结果

(Heyn 1997)

 

       翻译工作站现在主要有四家销售商:Trados(这也许是最成功的),

德国(Transit)STAR AG, IBMTranslationManager, 以及比利时的LANT

(原来是法国的SITE做销售),翻译工作站给翻译工作者使用计算机带来了

革命性的变化。翻译工作者终于有了可以自己完全控制的工具。他们可以

自由地选择使用其中任一个工具,或一个都不用。每个资源的价值决定于

它的数据质量。在机器翻译系统中,字典和术语数据库的建立需要很多精

力、时间和资源。翻译记忆器好坏决定于是否有合宜的很大的有权威译文

的语料库,如果公司或客户不接受翻译结果,就没有理由使用翻译。

 

       尽管欧洲委员会行政官员广泛使用Systran机器翻译系统,该委员

会的职业翻译家还是很少使用机器翻译系统。翻译服务中心正专门为职业

翻译家开发他们喜欢使用的工作站,EURAMIS, European Advanced Multi-

lingual Information System (欧洲高级多语信息系统). 它包括访问委员

会自己的巨大的多语数据库(Eurodicautom),Systran的词典库,方便个人

或团体创立及维护术语数据库的工具(用 Trados' MultiTerm软件)、翻

译记忆器(也是方便个人或团体使用的),访问CELEX(欧盟法律和法令全

文数据库),文件比较软件(探测哪里发生了变化),以及访问Systran

翻译系统本身。后者只翻译从英语到荷兰语、法语、德语、希腊语、意大

利语、葡萄牙语和西班牙语;从法语翻译到荷兰语,英语,德语,意大利

语,西班牙语;从西班牙语翻译到英语和法语;从德语翻译到英语和法语。

整个Euramis系统与其他工具(如,拼写检查,语法检查,语言风格检查,

多语写作辅助)相连,还与欧洲委员会行政管理内部网相连,以及与因特

网外部资源相连。

 

   软件本地化 Localisation of software

 

       使用计算机翻译的最红火的领域是软件本地化行业。这时要求新

软件发布的同时各种语言版本也同时得到。翻译必须迅速,但从一个版本

到另一个版本有很大部分的重复,显然使用机器翻译或最近的翻译记忆器

是一个解决办法(Schaeler 1996).这一领域最早的公司是德国的SAP AG

他们用两个机器翻译系统,用METAL做德语到英语的翻译,用Logos做英语

到法语的翻译,计划对其他语种之间的翻译启用其他系统。

 

       然而大部分本地化工作使用翻译记忆器和工作站方法。典型的是

Corel, Lotus Canon. 有趣的是许多本地化的活动是在爱尔兰做的

这要感谢当地政府和欧盟对计算机行业的支持。然而本地化是一个跨国、

全球性的行业,它本身有自己的组织(总部在日内瓦的本地化行业标准委

员会,Localization Industry Standards Association),他们定期在各

洲组织讨论会和报告会。(详见LISA Forum Newsletter)

 

       本地化公司在欧洲最积极推行术语标准化词典及文本处理格式,

以及推广架构共同的网络基础结构。这就是荷兰Lotus组织协调的OTELO

目。其他参与成员有SAPLogosGMS。需要建立一个一般性的翻译环境能

充分利用翻译记忆器、机器翻译和其他工具,普遍认为这对将来在软件本

地化产业的成功是基础性的。

 

   个人计算机上的系统   Systems for personal computers

 

个人计算机上的系统早在80年代初就已经出现(Weidner MicroCAT 系统尤其成功)。几乎所有主要的日本计算机公司都研制了英日或日英机器翻译系统,例如NEC公司的PIVOT系统,东芝公司的ASTRANSAC系统,日立公司的HICATS系统,以及OKI公司的PENSEE系统和来自夏普公司DUET系统等。

日本以外,个人计算机上的系统出现的稍早一些,但做这方面产品的公司相当少。第一个美国产品是80年代初来自ALPSWeidner公司的系统。ALPS公司的系统首先是作为翻译助手来开发的,提供访问和创建术语资源的工具,同时还包括交互式的翻译模块。尽管一开始销售不错,但到80年代末制造商下结论说,这个市场仍然没有准备好,产品实际上在萎缩。事实上,ALPS公司转向了翻译服务业务(ALPNET),内部使用它自己的工具。相比之下,Weidner销售的全套机器翻译系统的语言对不断增长(英语、法语、德语、西班牙语),业务也非常繁荣。Weidner公司推出两个版本:针对小型个人计算机的MicroCat和针对大一些的微型计算机或工作站的MacroCat。该公司后来被一家日本公司Bravis收购,因而也上市了一个日语版的系统,但不久之后老板决定,个人计算机系统上的机器翻译市场仍然没有进入发展轨道,因而把这项业务转手出让了。MicroCat完全销售,MacroCat则被Intergraph收购,后者调整并发展了它的出版软件的范围,随后以Transcend(“超越”)的品牌来销售它 —— 最近TranscendTransparent Language公司收购。

80年代末,今天市场上能够看到的大多数商用系统出现了。首先亮相的是来自德州Linguistics ProductsPC-Translator系统,面向低档的个人计算机。几年后,许多语言对的机器翻译系统纷纷出现并被推向市场,从销售情况来讲应该是比较成功的。接下来亮相的是Globalink(带有法语、德语、西班牙语跟英语之间的翻译)。几年之内,Globalink并购了MicroTac。后者是一家非常成功地销售它自己的廉价的语言助手系列PC软件 ——包括自动词典、最小短语翻译工具等。90年代初,Globalink推出了它的著名“Power Translator”系列翻译系统,包括英语到法语、德语、西班牙语的双向翻译,近来Globalink已经把更先进的“Telegraph”(电报)系列翻译软件推向了市场,Globalink自身则被Lernout & Hauspie公司收购。后者是一家顶级语音技术公司。

90年代开始以来,许多另外的个人计算机上的系统出现了。日语和英语之间的翻译系统目前还有来自语言工程公司(Language Engineering Corporation)的LogoVista系统,以及来自Neocor技术(该公司现在也被Lernout & Hauspie收购)公司的Tsunami(海啸)和Typhoon(台风)系统。前苏联在6070年代的机器翻译研究曾经很积极。现在他们有Stylus(最近更名为ProMT)和PARS系统,都是俄语到英语的翻译。Stylus也包括法语的,PARS 也包括乌克兰语的。其他来自欧洲的基于PC的机器系统还包括:意大利语和英语之间的Hypertrans系统;包括丹麦语——英语,法语 —— 英语和英语 —— 西班牙语的Winger系统;目前该系统也已经在北美上市。芬兰语——英语有Kielikone系统的商业版TranSmart

老的大型机系统的厂商( Systran, Fujitsu, Metal, Logos)目前不得不为它们原来的系统减肥以提高竞争力。不过基于个人计算机的系统仍然保留了以前基于大型机的系统的许多特征。例如,Systran ProSystran Classic是从60年代以来为全球多种语言开发的支持客户机的成功系统的基于Windows的版本,传统Systran的大词典数据库就继承下来了。面向家庭应用的Systran Classic和面向翻译人员的Systran Pro目前以低于500美元的价格销售,包含多种语言对:英语——法语;英语——德语;英语——西班牙语;英语——意大利语;以及日语——英语。出版公司Langenscheidt购买了销售METAL的一个版本的权力。……

商用PC翻译软件的销售已经表现出迅速上升的趋势。估计目前有大约1000套不同的机器翻译软件包在市场上出售(每种语言对分别计算)。一个厂商(Globalink)的产品仅北美就出现在至少6000家商店中。在日本一个系统(来自Catena的英-日系统Korya Eiwa)据说在它上市第一年就可以卖出10万个拷贝。尽管了解售出的软件被定期使用的次数是困难的(有些挑刺者的说法是:仅有很少的比率是被试用超过一次的),但“临时”翻译的增长量是无庸质疑的。这些临时翻译包括那些各种背景不同的人想要把外语翻译成本族语,以及想用外语跟其他人交流的人,此外还有那些不在意翻译质量的人。正是这种对低质量翻译的潜在市场——直到最近才被开发起来——刺激了翻译软件的销售大幅度增长。

 

   Internet上的机器翻译系统  MT on the Internet

 

       与此同时,许多机器翻译系统销售商一直在提供应客户要求的网

络翻译服务,包括附有人工修正。一类情形是固定关系客户以客户机/

务器方式进行的;另一类情形,是试用,允许公司看看机器翻译对他们特

定的情况是否值得使用。这种服务Systran, Logos, Globalink, Fujitsu,

JICSTNEC都提供。

 

       有些公司现在主要是为此目的建立起来的:如比利时的LANT,以

拥有开发METAL系统和Eurolang Optimizer权力为依托。它的专长是将受

控语言面向用户定制以便利用它的机器翻译系统和翻译记忆器设备。1997

年下半年这个公司启动了多语种电子邮件、网页及各种附件翻译服务。新

加坡有MTSUMachine Translation Service Unit of the Institute of

Systems Science, National University of Singapore, 使用他自己

本地开发的英语译成汉语、马来西亚语、日语和朝鲜语(主要是英汉)系

统,并有职业翻译家进行译后编辑。这类服务是面对因特网上全世界客户

(主要是跨国组织)提供大规模的翻译服务。包括许多软件公司本地化的

需求(汉英市场)。

 

       因特网影响增大的一个迹象是越来越多要求机器翻译软件翻译web

页面的请求。以日本公司为带头:几乎上面提到的所有公司都在这一有利

可图的市场上有其产品。其他公司也紧随其后(如:Systran, Globalink,

Transparent Language, Logo Vista),加上PC翻译软件翻译web网页,可以

看出Internet服务使翻译更加便利:近期的一个例子是Systran 增加了

AltaVista版可以在英语和法语、德语、西班牙语之间的翻译。但现在评论

这一举动是否成功及用户是否满意还为时尚早。

 

       机器翻译用于email和“聊天室”同样重要。 两年前CompuServe

开始了一个试用性服务,以Transcend系统为基础,让MacCIM Support论坛

用户使用。六个月之后,World Community Forum开始使用机器翻译服务翻

译对话讨论性的电子邮件。机器翻译的使用直线上升,最近,CompuServe

出它自己的翻译服务,可以翻译更长一点的文件,要么做未编辑的“原始”

机器翻译,或选择人作编辑。很快CompuServe就会推出电子邮件翻译标准的

机器翻译。至于Internet聊天室,GlobalinkUni-Verse提供了多语种服务。

 

       机器翻译的使用并不简单出自好奇心,尽管一开始往往是这样的。

CompuServe创下了重复使用其服务的大客户的记录,不需加编辑的机器翻译

需求达85%,比预料的比例高。似乎大多数人用机器翻译只是想粗略了解信

息,翻译的差一点也能接受。关键是客户已经打算付钱买机器翻译产品,如

果机器翻译服务质量下降,CompuServe就会疲于应付一大堆抱怨。

 

       显然,Internet的机器翻译潜力正在全速增长,所有公司都不甘落

后,否则就会遭受到巨大的经济损失。大家都有雄心勃勃的计划,如,Lern

out & Hauspie(McLaughlin and Schwall 1998),它现在从Globalink, Neocor

AppTek 及老的METAL系统得到机器翻译系统。

 

  未来需要和发展       Future needs and developments

 

       尽管近来对微机和因特网上的机器翻译服务有上升的趋势,实事求

是地说,还没有一个机器翻译系统特别适合于自由职业翻译工作者,也就是

那些既不隶属于一个大公司也不在一个翻译组织里工作的人。据知有些翻译

者曾试图使用商用PC软件,但需要的适应量太大,机器翻译输出结果太差,

他们感到不满意,经济上不划算。尽管曾有希望在这一潜在大市场有低成本

的计算机工具,比如术语和协调软件,及可能的话,对齐软件,无疑,这一

部分目前还没有。

 

       另一个目前做得很糟糕的领域是给出质量可靠成本低廉的翻译,

译成未知的外国语,这时用户并不想从事专家式的双语翻译家的角色。

翻译成“接受者”方的自然语言没有问题,PC系统可以给出大致“粗略”

的译文,至少可以告诉用户大致说的是什么。但不知道目标语言的翻译,

目前还没有什么解决办法。最近日本研制出来了一些廉价的产品可以对特

定的“外语授权(foreign language authoring"提供服务,比如写一

封商务信函(基于标准短语和文件模板),但对其他领域和较长文件,这时

“规矩套路"较少,还不能编写。如果让消息发送者自己写成另一种未知

(或几乎未知)语言,真正需要的是能够提供好的质量输出的软件(大部

PC产品都不够好)。有几个研究小组正在研究交互式系统,发送者按照

模板要求(和计算机合作)编写他们的文件。如果输入文件足够“正规化”,

机器翻译系统就能保证语法和语言风格正确的输出。然而,这项工作(法

国的GETA)仍然处在实验室研制阶段。(Boitet and Blanchon 1995)

 

       同样,将机器翻译技术和信息访问,信息提取和文摘软件结合在

一起的尝试也是仍处在研究阶段,目前市场上还没有商用产品。但已经意

识到它的潜在的需要。例如,最近大多数欧盟提供基金支持的研究都不是

着重于开发“纯”自然语言处理(八十年代是这种情况),除非脑子里已

有直接应用目的的多语工具项目,大多数一定程度的翻译,通常是领域受

限的,和状态受控的。作为一个例子,AVENTINUS项目是专门为警察部队在

辑毒和执法方面开发的。用欧盟任一语言都可以访问到数据库查询关于毒

品、犯罪和嫌疑犯的信息。

      

       全球对这类跨语言应用兴趣越来越大。最吸引人的应用是“跨语言

信息检索”,即,允许用户用自己的语言搜索外语数据库的软件。大多数工

作集中于如何建立和操作合适的翻译字典,以便将查询词串与数据库文档中

的词和词组匹配。尽管翻译软件已经有希望迅速地将源语言翻译成查询者自

己的语言(McCarley and Roukos 1998)。无疑商用软件用于此种目的已经

不会是太遥远的事情了。

 

       未来还有一个应用是公众迫切需要的,就是口语的翻译。但从商业

角度(甚至从研究角度)看,全自动口语(语音)翻译还是一件十分遥远的

(Krauwer et al. 1997)。八十年代,语音识别和语音合成取得的进展使人

们感到口语翻译是可行的目标。日本有一个ATR公司是政府和工业界公司合

资的公司,于1986年在Osaka建立,现在是主要的自动语音识别中心。目标是

开发一个依赖于讲话者的实时的日英,英日的电话翻译系统,开始是面向旅

馆预定房间和办理会议注册手续的。后来又有一些口语系统相继开发。JANUS

系统是卡耐基梅隆大学和德国的Karlsruhe的一个研究项目。研究者和ATR

作形成一个合作体(C-STAR),每个研究者开发他们自己语言(英语、德语、

日语)的识别和生成模块。(这一研究得出了一个副产品,即前面曾提到的:

迅速转变成非公共语言的用户定制系统。)言语翻译方面第四种努力是开始于

19935月的德国科学技术部出资支持的长期VERBMOBIL项目。目标是开发一

个便携式商务谈判的辅助工具,作为用户自己语言(德语、日语、英语)知

识的补充。好几家德国大学参与进行这项对话语言学,言语识别和机器翻译

设计的基础性研究工作,目前系统原型(样机,prototype)已经接近尾声,

希望下个世纪初期能够拿出演示产品。

 

       言语翻译(speech translation)可能是目前基于计算机翻译研究的

最富有创新意义的领域,吸引了最多的资金和公众注意。但观察家们并不看

好这一领域在近期取得迅速进展。书面语机器翻译花了许多年才达到现在的

水平,即广泛在跨国公司中有实际应用,有很大范围的基于PC的各种质量和

应用的产品,网络和电子邮件方面日益增加的应用。尽管书面语机器翻译目

前已有很强能力,研究人员知道要提高翻译质量还有许多工作要做。口语机

器翻译的研究开发目前还是实验室阶段,还没有到实时测试阶段。

 

十一   人和机器翻译之比较 Comparison of human and machine translation

 

       通过以上综述可以看出,使用计算机进行自然语言翻译并没有也不

可能对职业翻译家的饭碗有什么威胁。翻译家的翻译技巧将继续很宝贵。例

如,机器翻译从没有也不敢试图涉猎文学或法律文件的翻译。与之相对的,

Internet粗略翻译电子邮件文本方面也没有什么方法能与机器翻译相比

人在速度方面比不过机器,即使人愿意承担这类“短命”(没有保留价值

的)的,常常是写得很差的文件的翻译。

 

       我们可以根据本文开头提到的几种翻译需求来比较一下人和机器翻

译的相对优缺点。对于“传播思想”功能(即产生可出版的翻译),凡是需

要翻译某个特定领域(科学,技术,医学,法律或文学)的某段特殊文字,

由人(翻译工作者)翻译是质量可靠而且总的来讲成本较低的。机器翻译的

字典维护和更新以及译后编辑需要成本比较高。只有当需要翻译某个领域的

很大量的重复性的文件才是划算的(即成本低效果高,cost-effective)

如果要翻译成多种目标语言那就更划算(如果可以对源文本做译前编辑和/

词汇语法限制),以及源文件有大量重复。对这种翻译任务,人翻译者会

望而却步,因为太大的工作量,令人厌烦的重复,而且还要保持术语使用的

一致性。反之,计算机可不怕翻译量大,可以自动保持一致性。简而言之,

机器翻译适合于处理大量的,和/或快速的,(令人生厌的)技术资料,

(大量重复性的)软件本地化手册,及实时的天气预报类翻译。人类翻译在

语言非重复性的复杂文本(如,文学,法律)方面有着(将来仍然是)起着

无可竞争的作用。

 

       对于为了吸收信息而需要翻译的情形。这时对翻译质量要求不高,

显然使用机器翻译比较理想。翻译家不打算(而且很反感被要求)“粗略”

地翻译科学技术资料。当只有一个人只是想大致了解一下某篇文章的内容,

并不想知道该文的一切细节,而且他并不讨厌看到译文文体拙劣、语法错

误百出时,用人进行翻译是很不合适的。当然,如果目前的机器翻译给出

的译文输出好些则更好。毕竟有一点翻译总比一点都没有翻译要好得多。

 

       对于信息交流,在未来的一段时间里,人类翻译家在翻译商务信

函方面继续起着主要作用(尤其是如果内容比较敏感或与法律有关)。但

对于个人信件,机器翻译可能用得越来越多;而对于翻译电子邮件,网络

页面的信息提取及基于计算机的信息服务来说,机器翻译是唯一可行的解

决方案。

 

       而对于口语翻译,人类口译家将继续有市场。没有迹象表明自动

口语翻译会取代外交和商贸领域的口译家。尽管在高度受限领域有电话翻

译方面的研究,未来也有希望实现,但对大量电话交谈来说,不可能出现

什么能代替口译家。

 

       最后,机器翻译系统正开拓人类翻译从未涉及的领域:为需要用

外语写作的作家提供生成文章草稿的帮助;在线电视解说词翻译,翻译数

据库信息;无疑未来还会出现更多这类新应用。这些领域不会对人类翻译

家构成威胁,因为这些内容从来是职业翻译家未曾涉猎的。无疑机器翻译

和人类翻译可以,将来也一定会,各司其职和谐共存。