MT Summit VII(大翻译时代的机器翻译——MT in the great translation era

1999913——17日,新加坡Kent Ridge Digital Labs

会议论文集由机器翻译亚太联合会(AAMT)出版。

论文集共653页(是上一届会议论文集的2倍多)

 

机器翻译:回顾与展望

 

John Hutchins

Univ. of East Anglia, Norwich UK

WJHutchins@compuserve.com

 

(此文发表在MT Summit VII,标题为 Retrospect and prospect in computer-based translation

 

摘要:在本世纪最后一次机器翻译高峰会议上,本文将简要回顾过去50年以来,从机器翻译诞生开始到现在所发生的事情,评价目前的状况,并预测会有一个怎样的未来。计算机翻译的基本过程并没有像计算机技术和软件的发展那样发生巨大变化。对于改善机器翻译输出的语言质量而言,仍然大有文章可作。对此基于规则方法和基于语料库方法的机器翻译都充满希望。对未来机器翻译前景的影响可能来自对在线实时多语交际的巨大需求。在这方面,质量也许不如易得性和可用性更重要。

 

1. 机器翻译:头40年,1949 - 1989

 

也就是在50年前,Warren Weaver写下了他的著名的有关启动机器翻译研究的备忘录。这方面的研究首先在美国出现,而到50年代末则在全世界发展起来了。这还不是提到机器翻译的最早时间。事实上,早在19473月,Weaver就曾经写信给Norbert Wiener谈论此事。而Andrew BoothRichard Richens1948年也已经做了一些尝试性的实验。

在那些早期岁月,以及后来的许多年中,计算机跟我们今天所熟悉的东西可不一样。那时的计算机个头大的惊人,要放在带有加强地板和通风系统的大房间里以便散热,并且价格昂贵。此外还需要一大帮维修人员和尽职尽责的操作人员和程序员围着它团团转。大多数工作进行数学计算,或者为军方服务,或者为大学物理系和应用数学系的军方项目服务。当时的机器翻译很自然地是得到军方支持,同时也就是为了翻译军事情报而研制的。比如在美国是俄——英机器翻译,而在苏联则是英——俄机器翻译。

尽管在50年代和60年代机器翻译吸引了相当可观的资金,尤其是军备竞赛在1957年苏联第一颗人造地球卫星上天以及1961Gagarin驾驶太空飞船航天飞行成功后进入白热化阶段更是如此,但这段时间的结果却令人失望。到1966ALPAC报告(ALPACAutomatic Language Processing Advisory Committee语言自动处理咨询委员会的缩写,这个机构是美国科学院19644月成立的)发表后,机器翻译在美国进入低谷时期。机器翻译研究者碰到的语言问题比他们预想的要多得多。这使得人们回忆起差不多5年前,一位机器翻译的热心人Bar Hillel曾经发表的一个有关机器翻译的批评性的评论。在那篇文章中,他拒绝所谓的FAHQT(全自动高质量的翻译)这样的理想目标——事实上,他提出了一个所谓的“不可能性”的证明——同时他提倡开发基于计算机的翻译系统,为人类译员提供帮助,即所谓的“人机共生”环境。ALPAC报告的作者同意上述诊断,并建议有关FAHQT的机器翻译研究应该停止,研究人员的注意力应该转向为翻译人员提供水平比原来所定的高目标要低一些的辅助系统。

ALPAC发表之后的若干年,机器翻译研究仍在继续,但规模大不如从前了。到70年代中期,机器翻译研究取得了这样一些成果:1970年开始美国空军开始使用Systran[1]系统来作俄——英机器翻译;1976年加拿大开始用Meteo[2](气象)机器翻译系统翻译气象预报;欧共体购买了Systran系统的英——法版来帮助减轻它的翻译负担,此后其他欧洲语言的机器翻译系统开发也就接踵而来了。在80年代,机器翻译从后ALPAC的沉郁气氛中开始复苏,世界范围内的机器翻译研究活动又重新抬头——特别是在日本——新的研究思想(比如基于知识的和基于中间语言的系统等),新的资金支持(欧盟、计算机公司等),以及市场上首次出现的商用机器翻译系统等,都显示出机器翻译进入了一个崭新的发展新阶段。

但是,80年代的机器翻译复兴仍然是把注意力几乎都集中在了人助自动翻译上,人助工作包括译前编辑(或受限语言),翻译期间的交互式解决问题,译后编辑等。而开发基于计算机的辅助翻译或“工具”仍然被相当程度地忽视了——尽管Alan Melby1982)和Martin Kay1980)为此鼓吹呼吁。

80年代几乎所有的研究活动都致力于在传统的基于规则和“中间语言”模式的基础上进行语言分析和生成方法的探索——这些方法都伴有人工智能类型的知识库,表现了更具创新性的潮流。译员的需要让位于商业兴趣:术语管理软件出现(例如Mercury/TermexALPNET80年代上市了一系列翻译家工具,其中还包括“翻译记忆库”(Translation Memory)的早期版本。这是事先翻译好的双语对齐文本库。

 

2.  90年代的机器翻译

 

真正的翻译家助手出现在90年代早期,即所谓的“翻译工作站”(Translation Worksation),比如Trados公司的Translator WorkbenchIBM公司的TranslationManager/2STAR TransitEurolang Optimizer等。混合了复杂的文本处理和出版软件,术语管理以及翻译记忆库等。

90年代早期,机器翻译研究被新兴的基于语料库的方法向前推进着,比如统计方法的引入(IBM公司的Candide计划),以及基于实例的机器翻译等。统计技术为先前独用的基于规则的方法带来了解放。消歧问题,代词指代以及更多的惯用法生成问题等,都由于基于语料库技术的应用而有了解决的希望。统计方法跟基于规则的方法一样也不能提供更多答案,但是跟10年前相比,现在提高输出译文质量的希望似乎更大一些了。正如许多观察家已经指出的,最有前途的方法可能是整合了基于规则和基于语料库的方法。现在许多商用机器翻译系统正在集成翻译记忆库,而许多翻译记忆库则正在被机器翻译方法所加强。

90年代的最主要特征是机器翻译和翻译工具的使用迅速增加。商业和信息的全球化使得对翻译的需求日益增加。这不仅意味着跨国公司的机器翻译应用会持续增长,而且可以帮助产生高质量译文的系统的翻译服务也得到了广泛应用。直到最近,译文生成已经基本被看作是一个独立的活动。对大用户来说,翻译系统的引入已经促成了翻译和文件处理(技术写作和出版)的整合(参见 Hutchins 1998)。翻译现在已经被看作是信息交流过程中的一个阶段。这一市场的未来产品将不是分离的独立的机器翻译系统,翻译家工作站以及翻译工具等,而是多语文本处理软件,混合了文档创建、翻译和修订,文件归档,信息分析,检索和文摘等等功能。在一个集成环境中,公司的特别要求很容易得到适合的技术支持。

 

3.  机器翻译的质量

 

10年的机器翻译新方法并没有从根本上提高机器翻译系统的译文质量。这些提高也许会在将来出现,但总而言之必须承认目前的机器翻译并没有产生比70年代的机器翻译系统有重大进步的质量提高。我们仍然能看到同样的错误:错误的代词,错误的介词,断章取义的句法,不正确的选词,单复数混淆,错误的时态等等。这些错误都是人类翻译者从未犯过的错误。

尽管系统仍然保持着研究原型,糟糕的质量还是有公众影响。但当商业系统产生质量粗劣的译文时,整个机器翻译界就笼罩在一片阴影之中。大型的基于PC的机器翻译系统目前的市场定位是面向翻译人员和一般公众。这样的系统代表了目前机器翻译的“公众形象”。也正是这些系统,不得不为其辩护以求得谅解。对一般公众而言,宣传有许多大公司正在生产成功的和合算的机器翻译系统也用处不大。而宣传为“信息目的”研制的质量粗糙的翻译不重要,肯定也不能令人满意——我们能说临时用户的需求不是回事儿吗?但另一方面,如果我们希望商业系统在未来会有所提高,也无助于事 —— 特别是如果我们不能指出研究界会有什么特别的进展的话。为此,我们发现我们自己必须采取防卫的姿态。我们必须解释为何机器翻译对计算机而言如此困难,以及消除那些认为用户(无论新老)总是会热情地扑进我们怀抱的机器翻译“狂热者”的叫嚣为何如此困难。

不幸的是,这种状况将可能在可见的将来没有多大改变。目前没有什么迹象显示机器翻译的质量在未来几年内会有重大进展。可能发生的事情是机器翻译自身将在公众中更为大家所熟悉,这样质量将不再是一个重要的问题。另一方面,熟悉可能导致轻视,整个机器翻译界可能会受到公众长时间的责难。这对研究和开发商都会带来潜在的有害的后果。

尽管我们会希望机器翻译引擎的最终改进,但目前最现实的选择是脚踏实地地改变机器翻译的形象。它不再是所谓人们翻译的“解决方案”,而应该被视作一个“有用的助手”,可以帮助那些不是翻译家的人获取或传播信息。目前,太多的产品是作为“解决方案”而不是作为“助手”来销售的。在理想的情况下,我们希望能阻止商家销售它们作了误导宣传的产品,但在现实生活中,作为一个组织——这里我是指IAMT(机器翻译国际联合会International Association for Machine Translation)以及它的三个地区性的协会——它所能做的只是“教育”消费者和购买者。第一步要做的是树立产品认证观念;第二步可能是一些公正的权威的消费者测试;但总而言之,目标应该是有关机器翻译和翻译工具是什么的信息能够得到广泛传播 —— 它们能做什么以及不能做什么 ——尤其是在那些对公众观念极具影响力的人物中间进行宣传。

 

4.  机器翻译与因特网

 

因特网的影响已经在近几年表现得日益显著。我们已经看到实时在线翻译正以加速度方式迅速发展,我们也已经看到许多专门针对Web页面和电子邮件的翻译。对即时翻译的需求确实在持续地增长。但同时用户也的确在期待有更好的翻译结果。很明显,对翻译系统最迫切的需求特别来自因特网上口语类型的信息(这里包含着错误形式以及不好的拼写等问题)。传统的基于语言学规则的方法很可能不能适应这样的任务,而基于语料库的方法利用在因特网上可以得到的海量数据显然是适合的。但对这类系统仍有很多研究工作需要做。

在我们看到对“劣质的”翻译的需求日益增加的同时,因特网还提供了途径,为个人以及小型公司带来更快捷的有质量的翻译。许多机器翻译系统厂商正提供翻译服务,通常通过后编辑来实现所谓的“增值”。

但是,因特网对改变机器翻译的未来前景还有深刻的影响。人们预测独立的带有一大堆软件的PC将被能够从网上下载程序的网络计算机取代。在这种情形下,一次性地购买机器翻译系统,词典的模式将被远程机器翻译商店的模式取代,用户根据实际使用情况付费。不用说,这些变化将深刻地影响机器翻译的开发模式和市场定位。很可能发生的事情是按需求下载的机器翻译软件将不完全取代个人软件包的销售,但将引入市场的进一步拓展 —— 就如廉价的PC翻译软件没有取代老的更实际的产品而是拓展了潜在的购买者和机器翻译用户那样。

因特网的另一个深刻影响将是软件本身的特性。因特网服务的用户正在寻找的是有可能用任何语言承载的信息 —— 翻译是获取信息的一种途径。用户将希望有一个信息的无缝整合系统,包括信息搜索,信息抽取以及带有翻译功能的文摘系统。

事实上,在未来恐怕很少会有“纯的”的翻译系统,更多的将是基于计算机的工具合应用程序,其中自动翻译仅仅是一个组成成分(功能模块)。

 

5.  口语翻译

 

下一个10年可以预测发展最广泛的是口语翻译。目前的研究项目(ATRC-STARJANUSVerbmobil等等)都是在80年代末和90年代初开始的。实际应用在下个世纪前可能不现实。这些系统都限制在小领域中。

不管期望值多么高,再用20年时间或更长,出现实用的,面向非受限领域的口语机器翻译都是不可能的。比较实际的情况应该是受限领域的应用,比如财经和股票市场数据的查询系统,商业谈判的交互式系统,公司内部交际系统等等。

 

6.  机器翻译与人类翻译

 

在过去,人类专业翻译人员跟那些鼓吹和研究机器翻译的人之间多少有些关系紧张。但是现在,在20世纪就要结束的时候,机器翻译和人类译员能够而且将要在一种和谐的关系下共存。人类译员的技能总是有需求的。

要让译文达到出版质量,人类翻译和机器翻译各自可以发挥自己的作用。机器翻译对大规模的以及对速度要求较高的并且比较枯燥的技术文章的翻译任务而言,是很划算的选择。此外,那些包含大量重复劳动的翻译任务,比如软件手册的本地化,机器翻译也有优势。利用计算机作为翻译助手所花费的成本显著地低于只用人类译员所需成本。相比之下,人类译员对非重复性的语言上很复杂的文本(例如文学和法律文本)的翻译,是(并且仍将是)很重要的。甚至是对那些一次性的专业领域的技术文本也是如此。

对那些输出结果的质量不是很重要的文本翻译而言,机器翻译通常是比较理想的解决方案。例如,产生“粗糙”的科学和技术文档的译文,只有一个人,他仅仅是想了解这个文件的一般内容和信息,而不关心是否译得漂亮,那么机器翻译肯定会越来越受到这类用户的接受。总之,人类译员不是为产生粗糙译文准备的。跟机器翻译相对比的不是人类译员,而是什么翻译都没有。

但是,正如已经提到的那样,对“糟糕劣质”的译文越熟悉,不可避免地,就会刺激对只有人类译员才会满意的高质量译文的需求。

对于一对一的信息交流来说,可能总是人类译员在扮演中介角色,例如,在商业联系的翻译中(尤其内容比较敏感或受到法律约束的)。但对个人信件的翻译,机器翻译系统可能使用率会越来越高,此外,对电子邮件,网页的信息摘要,以及基于计算机的信息服务等,机器翻译可能是唯一合适的解决方案。

对于口语翻译,人类译员肯定总有市场。尽管我们可以在一些高度受限的领域想象口语机器翻译的应用(例如“电话查询,telephone enquiries,银行交易,计算机输入,发布机器指令等),但在不受限制的领域以及个人实时交际中,口语机器翻译似乎不可能有多少作用。

最后,机器翻译正在进入那些人类译员从未涉足的领地:为那些以外语写作的作者生成草稿,这些人需要帮助生成一个。电视字幕的实时在线翻译;数据库信息翻译,此外,毫无疑问的是,越来越多的这类新的应用会在未来全球通信网络扩张以及机器翻译的实际使用为更多的公众所熟悉的情况下更为普及。

 

7.  总结

 

在过去的10年,我们已经看到了机器翻译系统和翻译工具的销售和应用在快速发展,同时我们也看到用计算机来进行翻译工作进入到通信和语言处理的许多其他领域,这方面的发展出现了一些新的令人兴奋的开端。这些都是机器翻译研究在健壮成长的信号。在我们进入20世纪的最后时刻,又逢本世纪最后一次机器翻译高峰会议之际,我们能够回首前尘,对于那些充实的成就——或许没有我们期望的那样发展迅速,但仍然是相当可观的。我们无法预测机器翻译研究和翻译工具在下一个世纪将是怎样的一个面貌。但有一件事情可以预言。那就是21世纪的第一次机器翻译高峰会议将于20019月在西班牙Santiago de Compostela举行。


《我国机器翻译走过的40年》

 

刘涌泉 (中国社科院语言所研究员)

此文刊登在《计算机世界》1999104日“专家视点”(C1版)栏目

 

(一) 我国首次进行的机器翻译试验

      1959930日是我国机器翻译史上一个值得纪念的日子 —— 我国俄汉机器翻译系统在自制的第一台大型通用数字计算机104上试验成功。

      虽然机器翻译作为计算机非数值应用的新课题早在1946年就被提出来了,但真正出现在人类历史 却是195417日。美国乔治敦大学和IBM公司在IBM701上进行了第一次机器翻译试验。试验语种为俄英,词典包括250个词,语法只有6条规则。

 

(二) 机器翻译的几个重要阶段及成果

 

60年代末低谷 —— 70年代中期日趋繁荣 —— 80年代纷纷商品化(其中最重要的是美国的Systran系统) —— 90年代网络翻译系统  Light翻译系统的速度是每秒2000 – 5000词,以每句20词计,翻译速度是每秒100 –250句。 用于电子邮件翻译或网上聊天等。

 

(三) 如何看待机器翻译的发展

 

发展原因可以归结为:

1 硬件飞速发展;

2 软件技术不断完善;

3 语言研究不断深入

 

===========================================================

 

MT Summit VI  (第六届机器翻译高峰会议)

19971029 – 111

美国加州圣地亚哥

 

(会议论文集共285页)

 

First Steps in Mechanical Translation (机器翻译的早期阶段)

 

John Hutchins

 

摘要:尽管机械翻译的想法早在17世纪就出现了,但直到本世纪40年代随着电子计算机的出现,这种想法的实现才成为可能。50年前,19473Warren Weaver在写给Norbert Wiener的信中提到了用计算机进行 。接下来的7年这种想法一直在调查之中。直到19541月第1个机器翻译模型系统出台。本文是机械翻译发展过程的早期阶段的编年史。

 

1  从开始到1947

2  19473

3  1948年的发展

4  19497Weaver的备忘录

5  1950年对Weaver备忘录的反应

6  1951Bar-Hillel的调查

7  1952年:第一次机器翻译会议

8  1952年和1953年的进一步发展

9  19541月乔治敦大学和IBM公司联合开发的系统登台演示

    —— 从这时候起,真正的研究开始了。



[1] SystranP.Toma改进乔治敦大学的机器翻译系统之后发展起来的一个商用机器翻译系统。欧共体从1976年开始引入Systran系统。

[2] Meteo是加拿大蒙特利尔大学TAUM机器翻译研究组研制的系统