目前,国际上自动翻译以日、英语对译的系统开发得最多。但是它们仍需要改进,这就是下一代自动翻译所要完成的任务。

一、当前以经预编辑加工的直译型为主

一谈到自动翻译,当然首先想到的就是单词对单词的翻译。第一代自动翻译系统便是以句子和表现形式作为线索,如果能够决定源语言和目标语言之间的对应的单词关系,便可以进行翻译的系统。后来又在此基础上,加强语法分析技术,使系统得到改进。

然而,由于一个单词往往有多种意义,如果无法弄清它在这一句子中的意义,也就不能在目标语言中译出其对应的词汇。此外,单词的意义对解释表现的构造也要起影响。

因此,对第二代系统来说,除了语法分析技术外,还要对决定单词意义所需要的种种技术进行研究。如通过动词和名词的关系来找出单词意义的“格”语法、把单词的意义分解为“意义素”的方法等。通过这些处理方法,使第二代自动翻译系统在很大程度仍是进行单词对单词的翻译。

即使进行单词对单词的翻译,对真实句子进行直译仍是困难的。因此在自动翻译前需要人工进行预先编辑加工,使得(1)一个单词在文中只用其一种意义,避免在不同地方同一单词有不同意义;(2)定语句直接放在被修饰成分之前,以免出现一层套一层的复杂关系,使得从语法上不会得出多种的解释;(3)省略掉的主语和宾语在译成英语时要补齐;(4)不要使用成语和习惯用语,要都用标准的写法。总之,要使难以直译的地方都变成可以直译的。

这种单词对单词的直译法,其技术基础是要素合成法,它的前提是适用分解(break)原理。就是说语言所表示的意义可分解为各个单词的意义。而经分解处理的结果进行组合后又能恢复到原来的意义。这又叫剪辑(montage)理论或显微镜理论,就是说可把对象细分进行研究,最后再合起来,说明其整体情况。

应该说语言是各种惯用表现的集合,因此从原则上说,上述前提是很难成立的。语言的差别越大,这一前提越难成立。

现在通过预先编辑才使得在一定程度上能够进行这种翻译、不过,尽管像日语和英语这样原来乾别很大的语言,但从明治维新以后日本受欧美文化巨大影响,日语的表现也在变化,要素合成法得以成立的领域正在扩大,这是有利于自动翻译实用化的。

第二代翻译方式的特点在于要进行意义处理。语言的意义处理在计算语言学中是基于乔姆斯基(Chomskian)生成文法的意义论上的。就是说意义除了实际表现(表层构造)外,还具有深层构造,这对各种语言是共同的。尽管不同语言有些不一样,但都可采用深层构造来说明意义。

因此,现在自动翻译方式利用中间语言来表示意义,而且用中间语言作为中介来进行两种语言的翻译,这些都是基于上述这样的意义论。

语言的产生过程,首先是说话人看到了“对象”,产生某种“认识”,然后把这种认识“表现”出来便成为语言。对各种语言来说,共同的只有“对象”,认识(想法、体会)以下随不同语言而异。

为了说明“同样形式的表现而内容却不一样的”这种“同形式异内容问题”,出现了生成文法。然而从目前的结果看,作为表示语言共同意义的“深层构造”几乎与要素合成法所能处理范围的含义是等价的,它只不过使自动翻译中直译型的翻译得以实现而已。

二、通过构造和意义一体化,减少文法分析上的多义性

最近进行了打破过去文法意义论界限的研究。例如对日语助词“は”和“が”的差别(这两个助词都可用于主语),进行了根据说话人认识方法的不同来加以说明的研究,以及根据心的模型来认识语言的研究。

下面作为一个例子,介绍着眼于说话者的认识来对待语言的方法,以及以它作为基础的多段翻译方式。

在日语中,说话者可用不同的词以差别很大的方式进行表现。时枝诚记抓住这个问题,认为语言是说话人把看到的“对象”反映到说话人的“认识”中的工具,他着眼于把这种“认识”同“表现”相结合来进行表现,提出了时枝文法。

这种思想可以说是一种语言过程说,他所提出的看法比起乔姆斯基的深层构造意又论,还要早20年。

根据他的理论,必须按照“对象”同“认识”和“表现”之间的关系,来重新认识文法和意义,这里不准备对此详加解释,只简单地指出,这种理论认为文法是对说话者把看到的、听到的而获得的认识,如何进行表现所施加的约束;而意义则是对象同认识和表现的一种对应关系,

根据以上这些看法,无论在文法上还是在意义上,单词不仅对各个概念有对应的关系,而且同表现的构造、认识的构造,甚至对象的构造,都有对应的关系,如果表现的构造有了变化,意义也要随之变化。

尽管最近的计算语言学、逻辑语言学都有强烈地排除这样变形操作的倾向,但是如果否定变形操作,也就等于不要“深层构造”,只好再回到“表层构造”(实际中的表现)去。

当把着眼于说话者的语言理论应用于自动翻译时,应该注意两点,一是语言表现是直接表现说话者感情、意志的主体表现和说话者把对象概念化而进行的客体表现的结合。另一是表现的构造也是意义的一部分,因此当把它分解进行翻译,然后再组合起来时(要素合成法),将会失去原有的意义。

因此,日本电报电话信息通信处理研究所池原悟提出了多段翻译方式,把表现的构造作为意义的一部,分进行处理通过近似的方法把表现大致上分成四个层次进行变换。

首先将文章分为主体表现和客体表现,把主体表现所表示的意义对应地翻译成目标语言,而客体的表现则将其抽象化成下述的三段构造,再按设定的规则变换成目标语言,这三个阶段就是:(1)最为抽象化最难的表现(用成语表现等);(2)—定程度抽象化的较容易的表现;(3)最为通用的表现,能适用针对性强规则的表现,较容易翻译先译出来,余下的按一定规则,顺着上述三个阶段的顺序逐步地译出来,这样做时所用的规则组成有以下特点:阶段(3)规则的通用性高,所以规则数目比较少就已够用,而阶段(1)、(2)的规则针对性(个别性)较强,所以规则的数目,需要以万计。然而,语言本来就是个别性很强的东西,各个人所用的每个字往往都旬含着微妙的差别,因此即使拥有数以万计的规则,也许还不够用。

这种把构造釦意义一体化的规则,即使在文法分析中也起重大作用,文法分析中的解释多义性,也同时意味着意义解释的多义性,因此,阶段(1)、(2)中的规则,往往归结为以意义为单位,也就是以构造为单位_用这样规则进行解释,就可以减少文法解释上的多义性。

三、正从以句子为单位发展到以段落为单位进行翻译

多段翻译方式的基本思想,就是通过表现构造的分阶段抽象化,使意义和构造实现一体化。支持这样思想的技术便是精密意义分类学,其应用技术有日语自动改写和文章脉络要素补充技术。

以前的意义分类学,能够对一个名词的意义,分出几十种、最多达200多种的意义,而通过构造和意义的一体化,为了描述上万个单位的规则,需要对40万个常见词(连同派生词可达60万个)所产生的多义性进行解释,因此有必要提高其精度,就是说要比以前分类精度提高一位数,一般名词要分成2800种意义,而专有名词也要分成200种意义。这样的分类除了可用于动词和名词的翻译外,对名词子句的构造分析也可起作用,而且还可用于分析复合词的构造并对其进行翻译。

日语作为一种粘着语,其特点是造词容易,可以无限地造成新的复合词。以前只好把这些新复合词不断地收集到字典中,这不是好方法。现在通过意义分类,将其分解成单词便可了解其义,由于这是超出要素合成法的方法,所以也能产生有助于要素合成法的效果。

在还没有对应于日语的适当英语表现法时,如果把它都分析到意义层次,就容易通过日语的分阶段方式将其变换成表现翻译出来。

就是把难以直译的日语自动地变换成容易直译的日语这样的日语自动改写技术中,判断改写的好不好,仍然要归结到构造的意义来进行。

日语还有一个特点,就是只要对方能明白便可以省略。这些省略掉的主语和宾语,在翻成英语时需要补足,这种补充不足信息进行翻译的文脉要素补充技术,从广义上说,也应纳入日语改写技术。

在多段翻译方式中,利用这些方法可以做到:(1)按照名词、动词的意义翻译;(2)对包含复合词、同位语的名词子句以及惯用表现等进行翻译;(3)对省略的主语、宾语等进行补足。

按目前达到的水平,通过意义分类精密化和表现构造抽象化仍无法翻译的表现还不少,因此,需要有解决这一问题的方法,例如,对意义分类多元化方法和表现构造抽象化的层次扩充,需要确认其效果。

对具有多个用言(日语中把动词、形容词、形容名词等统称为用言)的表现构造进行分析的技术,以及大范围的构造变换技术,不仅可提高长句子的翻译能力,而且对确定适当的英语构造也是必要的,决定冠词和量词,也是技术难题,但对于正确地表达意义却是重要的。

现在已经能对一部分文脉进行处理,但为了摆脱以句子为单位的翻译,需要对应关系分析技术和采用时间空间观点分析方法,现在正开始进入研究这样以段落为单位进行翻译的时期。

手册和技术文献等说明文,只要经过预先编辑加工,现在的自动翻译都能把它翻译出来。下一代自动翻译的目标则是要求达到不用预先编辑加工,也能进行意义清楚的翻译。

[根据《日经产业新闻》1990 10月10、11、12三天连载编写]