这些统计数字本身并无多少新奇之处。但是另一个发现却引起了语言学家和文学研究者较大的关注,即:在不同的文体中,这些最普通的词的使用频率变化极大,分别对每种文体的词的出现频率所进行的研究表明:在这十五种文体中,the的使用频率在其中的十种文体中占第二位;and在四种文体中占第二位;to在一种文体中居第二位。更为有趣的是,报道性文体(informative prose)中(如:报刊选文、通俗文章、学术论文),of始终占据第二位;而and和to却在几乎所有想象性文体中(imaginative prose)如各类小说、幽默文章等)的出现频率占第二位。

但值得注意的是,在报道性文体(informative prose)中出现频率以绝对多数占第二位的词,of,在想象性文体(imaginative prose)中却往往屈居第四位或更低。这一简单的分析以及其他具体的分析结果清楚地表明,某些特殊词的出现频率部分地决定着作品的文体,甚至影响到语言中最普通的词。

毫无疑问,新的计算机装置和雄心勃勃的语言计算程序将使未来探索出解决文体问题的明显途径成为可能。像目前正在布朗大学进行着的,试图不仅从词的使用频率,而且从句子中的各种语法结构相对使用频率来描述某一文章中的文体特性的研究就是其中一例。

语言学家、词典编纂家和文艺批评家们还广泛地使用计算机编制词汇索引(word-indexes)和重要的语境索引(concordances)。词汇索引是在某篇文字材料中出现的不同词的词汇表:每一词条后都精确地注有可供查找的出处,(如:卷数、页数、行数)这种索引能帮助找到原文中某个特定词出现的前后文。用计算机建立的语境索引能使这类检索工作更加容易便利。语境索引不仅提供词的出处,还附有前后文(如:附带某词出现的整行或整句),这就省去了人工查找原文出处的麻烦。

如果有一台足够大的计算机,人们甚至不难为大量的文字材料编制出词汇索引和简洁的语境索引。最近,德克萨斯大学的专家们用计算机为詹姆斯 · 乔埃斯文集编制了语境索引;多伦多大学也正在编制威尔士中部文学全集的语境索引。编制获取多重信息的、更为复杂的程序也是可能的。如:摄取那些同时能满足几个条件的程序;这类条件可具体到只要求获取那些在一定间隔内出现的某两个、三个或多个特定词的语境。编制这种满足多重条件的复杂的语境索引的关键,在于具备完善的程序编制技术和足够大的计算机。

我们可以举一简单例子,说明多重条件语境索引在词典编纂中的潜在用处。假设我们对从原文中获取run up这一结构所有出处的信息感兴趣,就会期望研究它的不同种意义的确切用法,如:run up the hill(跑上山)和run up the flag(升旗)。两者意义不同,结构各异。我们还必须考虑到run在这类结构中也会以它的变化形式(runs,running,ran)出现;另外,run up也会被一些其他的词分割开,如:“He ran the blue flag up”(他升起了蓝旗)。我们所需要的是能够满足下列条件的语境索引计算程序:“摄取所有在同一句子中含有run,runs,running,ran的任一形式,并且后面又有up的句子。”处理这种信息还需要有能够把篇章切分为句子的自动程序。电子计算机已经以文中出现的大写字母和句号为依据,把《当代美国英语标准资料汇集》切割成句子。另外,我们还需要确定run(以及它的各种变化形式)和up相隔十个词以内的结构,这样就有把握获取这一结构的全部上下文,但也有可能偶尔得到些run和up并非属于同一结构的组合,而这些组合只有靠人工仔细检查机印的结果来剔除。

上述的语境索引都要求对特定的词和表达法进行详尽的描述,列出它们的出处。然而,语言学家和词典编纂者还常常需要研究某些词性的词的出现情况(如:形容词、名词、动词等)。计算机自然不能理解诸如“记下所有名词”一类指令。因为这种指令不够明晰;机器不懂语法,只能通过详尽描述有关语法范畴的形式特征,或者采用人机协作的方法解决。词汇索引首先要有用恰当的名称所作的语法注释(名词、形容词等)某些部分的语法标注可由计算机完成——计算机能够接受诸如“把所有以-ify结尾的词标注为动词”的指令。计算机标注有时会出错,必须由人工改正;另一些语法分类工作却只有精明的分析家才能胜任。

—些新型的计算机辅助装置对这种半自动化的语法分析助益颇大。阴极射线管仪(cathode-raytube console)就是最有效的工具之一。它与计算机相连接,形似一台电视机,能够以易于阅读的形式在荧光屏上显示计算机“记忆”中有关原文的信息,使语言工作者可以把修正和添加的信息直接输入计算机,无需经过打印卡片,或使用其他的缓慢的信息输入步骤。

词汇索引一经语法注释,获得所需要的某类词性的出现频率就成为可能。同样,我们就可着手编制多重语法条件的语境词典(即印制出能够同时满足几种语法条件的语句)。专家们已把一百万词的《当代美国英语标准资料》中的一部分作了语法注释,用来做“语体风格”(grammaticall style)的分析。在这项研究中,原文的句子被肢解,使之显露出代表这些句子的语法规则。各种不同的复杂的语法的规则出现率被用于概括描写原文复杂的语法总的特征。

电子计算机在语言高级理论研究中也起着重要的作用。通讯的数理方法,各种词汇频率分布模式,以及其他一些数字方法都已被用于语言结构的比较研究。人们试图借助计算机确定语言的某些共性,探究这些数量上的共性与已知的语言系属关系之间的关联。

电子计算机已能够通过模仿造句的方式检验个别语法规则或部分语法,甚至语法理论的正确性。人们也在机器翻译科研项目中,做了大量理论研究和实际工作,其中包括以计算机为主体的双语词典(俄英、德英及其他语种词典)的编辑工作。这类词典虽然部头不大,但却包含有用的词汇和语法信息。

并非所有的,甚至并非大部分的语法研究或词典编辑工作都适合于以计算机为中心的方法。诸如确定深层结构或话语的语义研究等某些最重大的语言学难题无疑还将大大依赖于人的思维和努力。在词典编纂中,只有编辑者的博学和技艺才是一部词典有用和价值的真正决定者。因此,如果语言学家和词典编纂者一哄而起,期望计算机能够对一切难题迅速提供答案,那就大错特错了。在计算机分析语言时,必须采取明智贤达的态度,全面地考虑它的能力限度。但是,正如我在文中所要证明的那样,对于语言学工作者,尤其是词典编纂者来说,无视计算机作为研究工具的潜在力也同样是愚昧蛮干。电子计算机不仅能节省劳动,确保精确度,还能开阔人们在语言应用中一些重大难题的视野。

(续完)