机译系统处理过程主要是分析和转换两个环节。我们碰到的问题也可以大致分为这两类来讨论。换言之,也就是汉语句子翻成英语结果不好,有些是因为对汉语的分析没有处理好,有些则是分析阶段处理得可以但转换阶段处理不好。下面分别举例说明。
一.分析问题
笼统地说,分析阶段的问题都可以归结为对汉语语言知识掌握得不够。表现在三方面:
(一)分析不出正确结果
分析不出正确结果主要指不能正确分析出句法结构。
假设词典中的词是完备的,分析不出正确结果就意味着分析规则中缺乏某种结构类型,解决这类问题主要通过增加调试语料来加大规则的覆盖面。目前的规则库对属于下面类型的语料都未做针对性的处理工作。
1.含引号、冒号、破折号、省略号、书名号等标点符号的句子。
2.省略中心成分的结构。如“三大杯都被他喝完了”
3.类似"急着去看球"这样的结构。(a
着 vp)
4.类似"闻着挺香"、"闻起来挺香"这样的结构。( v
着 ap )
5.类似"一大笔(钱)"这样的结构。( m
a q )
6.类似"两个月大(的孩子)"这样的结构。( np
a )
7.类似"不一会儿"这样的结构。( d
m 是单词还是短语?)
8.类似“摄氏37度”这样的结构。(
b mp )
9.类似“老张烂了一筐梨”这样的结构。 (a 了 np)
10.……
以上仅就我们碰到的情况举例说明,实际语料中还可能有很多想象不到的情况,不能一一列举。总的说来,标点问题涉及的面广,其他的有些是比较局部的特别的语言现象。在扩充规则后应该能处理得比较好。此外,这里我们没有谈分词和词性标注问题。并不是说这一步工作就做好了。事实是问题很多。这里限于篇幅从略。
(二)分析出多余的错误结果
分析出多余的结果,也就是所谓的歧义问题。在调试中,下列组合发生结构层次歧义的情况比较多。
1.多个名词连用的格式。整个结构体是名词性结构,内部组合层次有多种方式,机器不能准确判定。如:
文化 技术 知识 的 教育 中国 科学 技术 协会 的 一个会员
a a
b b
c
2.多个动词连用格式。整个结构体是动词性结构,内部组合可能分析出多个结果。如:
(市委书记)来 我校 做 报告 研究 开发 工作 的 完成
a a
b b
c
3.
pp vp vp 格式。 如:
被 分配 到 公司 里 作 了 翻译
a
b
词典中动词属性描述缺乏跟“被”字结构搭配能力的描述。应补上。
4.
vp pp vp格式。如:
(他们)又 开始 向 新的目标 迈进 了
a
b
词典中动词带补语的能力描写不够详细。现已补充动词能否带形容词补语,还应该补充能否带介词补语。
5.np
ap 的
np 结构. 如:
(他是)学校 最 好 的 学生
a
b
按a切分,np跟ap先构成dj。这一歧义不好排除。
6.p
np 的 np
如:
对 厂长 的 意见
a
b
7."的"在句尾,不好判断是否是语气词。如:
我相信他是无罪的 (非语气词)
他不会这么晚给我打电话的 (语气词)
他还是要干下去的
( 语气词 |
非语气词?)
汉语中的“的”的性质真是非常复杂。词性判断上是否在助词之外增加语气词,也费斟酌。
汉语中有结构歧义的组合格式还有很多。情况也多种多样,这里不多举例了(详见附录)。处理这一问题,可以有两方面的考虑。一是深入调查语言规律,使规则排歧能力提高。一是运用一定的技术策略,如考虑优先级、引进统计方法等等。
(三)分析不充分
分析不充分主要是指汉语句子的句法结构关系和语义关系分析得不够深入。例如:
1. np
np 之间的关系不好判定。
如 :"我国人口"。两个名词“我国”跟“人口”之间是领属关系判断不出来。
“小明的信”。“小明”跟“信”之间关系不易判断。可以是领属关系;也
可以是其他关系(小明寄来的信)
2. vp
vp 之间的关系不好确定。
如:“上课经常睡觉”。“上课”跟“经常睡觉”之间是时间+行为的关系。前一个vp是标示后一个动词发生的时间的。
如:“买菜去”/“骑自行车去”中“去”跟前面动词的关系不易确定。“去”可以表示实义的位移。也可以表示虚义的目的。前一个意思如:骑自行车去(北京);后一个表示“去练习骑自行车”。
3. 多义词问题。
如:“我给他送礼物”中,“给”和“送”都有多个英语译法。
给=>
to / for / by
送=>send /
give
要准确选择正确的译词,必须分析出“给他”跟“送礼物”之间的语义关系。
如:“他们乘船走”中,“走”有多个译法。
走=>
walk / go
受状语成分“乘船”的限制,这里只能选择“go”。
如:“雨不但没有停反而越下越大了”中“大”=> big | old | strong | .....
★ 实义词的多个义项还相对容易找选词条件,虚义词的多义情况更为复杂。突出的表现在副词和介词的英译上。目前看来不容易找到很好的解决办法。
一个实义词在实际句子中出现的意思很灵活。如果上下文环境可以准确判断,选择正确的译词还是有可能的。“You shall know a word by the company that
it keeps.”因此,有必要改进model,使词在句子中充当任意句法成分都可以确定。这样,就可以在两个共现词(co-occurence)之间建立搭配关系,从而互相确定意义。但是目前看来,难有很好的办法实现。在实际处理中,很难表示一个词的上下文信息。
二.转换问题
转换阶段的问题有的是因为两种自然语言之间的差异比较大不易处理;有的则是因为英语语言知识掌握得不够造成的。下面仅就在调试时碰到的一些情况略举几例说明如下:
1. 汉语的述补结构在英语中没有相应的结构与之对应。
如:v
完。 吃完
做完
v 走。 带走 拿走
a|v
得
ap|vp (她)气得直发抖 跑得满头大汗
这类情况可在词典中逐个详细描述。
2. 汉语有的述宾结构内部语义关系复杂,不容易翻译。
如:“切鱼片”=> “flake
the fish”
(“切......片”=> flake)
“盖房子”=> “build
a house”|
“
cover the house”
3. 含否定成分的。英语有的用词“not”表达,有的则用前缀表示。
如:“不高兴”=> “unhappy”
可以考虑在英语形容词的属性中加进“否定前缀(negpre)”项(boolean)。如值为“Yes”,则在属性“否定形式”中填入相应的单词(如“unhappy”)
4. 有的汉语译成英语需要添加或替换一些成分。如:
"小明的信"=> letter from XiaoMing (添加介词“ from ”)
"他小时侯"=> in his childhood ( 中间插入"his")
"我不能肯定我什么时候能回来" =/=> what time 应译作“when”但还有添加助动词和移位的问题。这种疑问形式在句中实际不构成疑问句式的现象在汉语中很有特色,目前处理得不太好。
5. 伪偏正结构。如:
他是坐的飞机,我是坐的火车 实际上是“坐飞机/坐火车”
"他的篮球打得很好" 实际是“他打篮球打得很好”
6. 数,时态,语气等范畴,汉语跟英语差异比较大,不易处理。还有英语中有定冠词和不定冠词的区分,汉语没有此类范畴相应的语法形式。如:
“了解她的人都说他善良” 应翻成复数形式。
“老人们总在一起晒太阳” 应翻成一般现在时。但目前“在”做状语都翻成进行时态了。
"我就不去"中"就"表强调语气,不易处理。
7. 词典中汉语词的英译形式问题。如:
“重视”在词典中译为“pay attention to”。这样,
“他的工作受到了重视”就译为“His work has been paid attention to.”
此外,词典中英语动词和形容词的子类分的似乎不很清楚,规则中用于转换部分的相应限制约束也就可能不准确。
8 惯用法,如:"这里有的是绿油油的草坡"、"一动也不动"、"穿小鞋"、"背黑锅"等等。这类例子举不胜举。