[摘要]与世界上大多数常见的印刷出版文献以及许多其他类型信息相似的电子数据库是通过在线系统供公众使用的。存有出版的文献资料的科学数据库得到了大量和广泛的使用。对公众开放的科学数字数据库数量还很少,也很少使用。由于引入了人工智能技术、用户之友前端处理器和入门方法,在线检索系统越来越容易使用。与电子数据库有关的问题包括了公私双方的竞争、越界数据流动、拷贝、数据卸载以及数据库生成和处理中的更新作用等。

世界上大多数的科技信息存放在在线使用的二千八百多个数据库中,并且这一数量不是讲与日俱增,也可讲是与周俱增。许多科学家和工程师面临的问题是要了解有些什么数据库,用什么系统来存取这些数据库。这样的系统常常被称为信息使用系统或数据出售系统,它提供在线数据库,同时配有搜寻、检索、数据操作和模型的软件。在线查找服务之所以被称为信息使用系统,是因为它们允许你使用信息,即便这数据库不是属你所有。它们允许巨量的信息资源广泛共用:和通讯网络相连的数据库、大型计算机、成熟的软件。

科学家、工程师、企业家、律师和许多其他数据库用户较快地学会在线查找不但是有用的,而且也是相当便宜的。在线数据库使用每小时费用平均仅一百美元,包括了各种费用(打印、连机时间、在线显示等等),而平均的查找时间仅需十分至十五分钟,亦即仅花费十六美元至二十美元。在十至十五分钟内,用户可查找几百万份记录,这相当于美国国会图书馆的全部目录或二十年的化学文摘,或者十年的《纽约时报》和几十种其他报纸。做过手工检索文献的人知道,在十分钟内将二十年化学文摘索引从书架上取出,独自一人查询一种化合物,列出有关的参考文献数字,阅读文摘,这将是很困难的。制药工业和专利代理人经常要做广泛而详细的文献检索工作,在线查找可使几周或几天的人工检索压缩至几个小时或几分钟,这就使得费用(相对劳动力而言)从成千甚至上万美元减至几百或更少些。

现在,数据库几乎服务于每一个主要的领域——传统科学、法律、政治、社会科学、艺术以及人类学,专门的数据库用于像放油、汽车传呼、机器人、造船甚至买卖等领域。服务最好和使用最广泛的领域是商业、法律、医药和化学。用于科学和工程技术的数据库都归于“科学的”术语之下。把这些互相重叠的领域区分开来将会是困难的,正如哈雷逊所评述的:“科学和工程技术的知识总量是空前丰富、价值巨大、且不断扩展的资源。对于这样的知识体没有术语可表达,所以常常就归为科学知识。”她评论说,科学和工程技术的传统物是一批概念、一批方法论学、一部分知识可由一个数据库组成。她所提及的许多知识被记录在印刷出版物和计算机文件上,最终以电子形式出现在公共可用的数据库中。我们这里所关心的就是那些公共可用的数据库。

数据库的分类有许多方法,面向字符的、面向数字的和面向图形的,它们之间的差异是根据机器对数据的不同表示来区分的。处理这三种类型的计算机软件包有值得考虑的区别。面向字符的数据库基本上处由字符串组成的,因而就要使用那种善于处理字符串的软件;计算机处理字母字符串和数字字符串。对于不同的面向字符的数据库,计算机的文件结构和索引可能会有变化,但是字符串操作基本上是相同的。

与此相对,数字数据库要求检索数字数据,有处理这些数据(例如,各种统计程序、回归分析,时间串行)的能力,并有一个用用户熟悉的公式表示数据的输入程序。也包括了少取数多处理。如果数据是与社会、经济、生产或者是化学现象有关,无论数字还是符号,或二者兼有,都用替代的数字进行处理,统计输入程序和其他操作程序都以同样的方式工作。

图形数据库存有基本的图形表示,例如:化学结构、物质分子、指纹、解剖图、地理图和地质图。包括处理过程的这种类型计算机很少依赖于字符串比较和计算能力,而是依靠图形析取、模式比较和坐标比较。因为没有供公共使用的在线图形数据库,所以这里不作进一步的讨论。

计算机可读信息在指定内容范围内组合起来的数据库有时以所存的内容来分类。指定的范围可以是单个课题或学科(化学),多学科的(化学 - 生物活动),面向问题(环境污染),面向任务(太空),面向一定的事务类型(贸易股票和债券)。其他分类法有:是目录型还是非目录型,数字型还是非数字型等。

文献目录数据库

科学和工程技术的电子数据库出现在六十年代;它们是面向字符的,存有已出版文献的目录。在六十年代中期仅有十几种。1976年出版的数据库字典列出了301种。到1984年底,各类公共可用的数据库有二千八百多种。在几百个科学数据库中,主要的数据库包括了像化学、物理学、生物学、工程和医学等学科,以及交叉学科和面向问题的数据。

化学文摘服务部在1961年推出了化学书目数据库,该数据库包括了七百五十份期刊的68,400篇文章。在1968年6月,化学文摘服务部使用了化学文摘缩写本,在头六个月中包括了112,137条书目。由化学文摘检索取代了化学文摘缩写本,此检索与印刷:出版的化学文摘相一致,它包括了从1967年至今的化学文摘书目。化学文摘服务的登记和术语的数据库是1965年开始使用的,它提供了登记的数字、化学文摘术语和6,910,000个化学物质名称。平均每年所记下化学物质数已达345,000种,在今后的几年中,平均每年所记下的物质数将增至600,000种,这相当于化学文摘从1920年至1965年所列的全部物质数量。化学文摘服务记录的数字提供了多个化学数据库的联系,把所有的化学数据库切实连在一个化学网络中的潜力是存在的。化学文摘服务记录和术语系统的发展不但解决了所属数据库内的命名问题,而且服务于广泛的领域。

大多数主要的科学文献目录数据库出现于六十年代后期和七十年代早期。最大的多学科科学数据库是科学信息协会的SCIS检索,它实际上包括科学技术各个领域,和科学索引相类似。SCIS检索不但包括了取自四千多份期刊的文章出处,而且也列出了这些文章的目录。养蜂文摘和化学文摘是专门的生命科学数据库。环境和能量是面向问题的数据库,它们包括了许多学科的内容。

全文式数据库

电子数据库一个较新的趋势是利用过去一直用于文献目录数据库的在线查找和检索系统研制全文式数据库。全文式数据库存有文献的全文,像通讯社新闻、法律事件、法规、百科全书文章、期刊或教科书。

对全文式数据库来说,法律是第一个经济上成功应用的领域,因为律师们经常需要了解事件的全部内容以及可适用的条文、规则等等。由于新事件、新的和修改的条文、规定的出现,法律内容的扩展,法律数据库在持续地发展。在其他领域可以新近发现的取代以前的,法律则不同,最早选择的事例可能会作为判例,可成为一连串事例的关键。专利数据库也是这样。数据库在不断扩展,无论何年所记下的数据对开业律师来说是有用的。这是法律数据库取得巨大成功的两个原因。

报纸(例如《纽约时报》)、通讯社(例如合众国际社)、新闻杂志(例如《美国新闻与世界报道》)、定期出版的时事通讯就是全文式数据库存取新闻的例子。

对于学术研究工作者来说,有用的全文式数据库是报纸、文献著作和百科全书等数据库。就使用广泛性和收入高而言,全文式法律数据库已经取得了很大的成功,但存有百科全书和期刊的全文式数据库并不是很成功的,全文式数据库借助于光盘媒质可能会取得更大的成功,因为光盘可以把巨量的信息(十亿字符)储存在一张盘片上,以相对便宜的价格提供给用户使用。光盘可以取代有些磁盘,可以为显示图像信息,例如在医学教科书中常用到的图例,提供又一种方法。

数字数据库

数字数据库是一个存有基本数字数据的电子数据库。一个数字数据由一个数字值和这一数值的一个或多个属性组成。数字数据是可测量的、可观察的、或可计算的量,如一个化合物的沸点,有特定方位和时间的风速,或是某一类产品一段时间内的平均价格。自然,数字数据库中也包括了一些非数字的数据。例如,与图表有关的标号、图例说明、名称数字指示(编码数目、文件数目、产品数目)就不是数字数据。许多数字数据库实际上是一个数据库系统,因为数字数据库是不能和一个对它们所存的数字进行设置、检索、处理和分析的系统分开而存在的。数字数据库和面向字符的数据库一样,包括了很多类型,常常是以所存的题目或学科、多学科,问题和任务来区分的。

数字数据库有科学和非科学的。在第一类中,区别数据库是严格科学型或是更倾向于商业型。科学型数据库提供了产生和用于物理学、工程学和生命科学研究、发展、试验和计算的数据(与物理、化学和生物学内容、物体、现象有关的理论上、观察和计算的数据)。面向商业的数据库是科学处理科学工程技术方面的商业事务(生产数据、销售进出数字、工厂的生产能力、工厂的设置、运输数据等)。这些实际区别,是据对目前市场出现的数据库观察得到的。对信息和数据类型的严格分类似乎会出现很大重叠的统一体。以这样分类的许多数据在现在所用的数据库中可能是找不到的。

如果把从物理学到社会学抽取的数据看作一个统一的连续体(物理学、化学、工程学、医学、社会学、政治和经济 - 金融 - 事业),则作一定的观察可得到这些数据。在处理物理学至社会学的信息过程中,数据包括了从时不变到时变,从静态到高度变化的(由于社会因素),从相互间联系较少变化至相互间联系变化很大的,从可预测到不可预测的,从对主观理解影响较少至对主观影响较多的,很能再现至不大能再现的;它们也包括来自观察和测量物理现象、性质和事件,观察和衡量生态组织,人的个体和群体组织或社会组织,如市场、公司、工业、城市和国家。在这统一的连续体社会一端,数据具有人类社会的特性,商业数据就很符合这一点,这一特性为在线商业数据高度使用起了作用。对商业决策来说,数据是需要的,且这些数据是不断变化的。所以用户必须使用提供实时数据的系统(例如:商品市场、货币兑换率、信用支票)。

在线检索的支持

世界上大多数近来出版的文献标注都包括在二千五百多个数据库中,不仅对遍及世界信息中心和专门、高级、公共的图书馆经过训练过的信息检索员是可以存取阅读的,而且对于科学家、工程师及各类研究人员也是如此。尽管公共在线查找服务自七十年代初期已经可以使用,但实际上最初的使用人都是经过训练的检索人员,这些检索人员了解他们所用每个系统的专用指令、说明、特点、响应和报文。在开始几年,对公众开放在线系统不满十个。现在有三百六十二个在线服务系统,但问题也增加了。只有很少几个检索员能熟练使用五至十个系统;比终端用户能处理多得多。这样,不仅有“精通”多种系统的问题,而且有要了解数据库存有什么内容,什么系统允许它们的困难。对于这些问题,信息科学研究人员已经认识和提出了很长时间了。

回溯到七十年代初期的研究方案,已为用于在线服务的“透明系统”、“用户之友前端处理器”、“中间系统”、“入门系统”的发展铺平了道路。这些新系统都有相同的目标——使复杂化的在线检索趋于简单,再提供给用户。实际上所有的商品化透明系统都有一个共同的特色;它们对查找服务提供自动拨号和销号。

中间系统是设计用以代替中间查找人的微机软件包。它们正如中间查找人所做那样,在在线查找系统处理查找问题中,试图用于帮助用户。它们一般是菜单式系统(提供一系列规定的选择)或提问式系统(提供建议和指令),它们通过选择规定项短语、术语、通过布尔和模拟逻辑操作器把它们联系起来的查找处理过程来指导用户。中间系统一般是数据库特有的,亦即用以帮助用户在特定的数据库或一组相近的数据库中进行查找活动。它们常常由数据库制作者为开拓更大市场,而得到经常更新。

—个入门系统指导用户进入一个或多个在线系统,最终进入系统内一个或多个数据库。它比自动接通方法更简单。入口软件在不需要用户知道电话号码、说明和指令情况下应当具有自动将问题引向适合系统的智能。入门方法研究开始于七十年代中期,系统运行开始于八十年代早期。

大多数商业可用前端处理器和中间系统是以软盘载软件包来提供的。但它们为什么不能设在网络内的一个位子上不是技术原因。例如,一个中间系统可以设在查找服务的主机上。事实上,中间软件对每个数据库来说都是可利用的,或者说,对在线查找服务来说,一般的系统也能用。中间系统和其他这样的方法存在于一个独立的装置中,按需要接入所要求的数据库和数据库查找系统。

支持在线数据库查找、用户之友接口和前端处理器发展、入门方式发展的透明系统全部领域都是人工智能和专家系统发展的成熟应用。

存在问题和发展趋势

公有和私有的关系   数据库是由公共部门(政府组织)和私人(非营利组织和商业组织)制作的。公用数据库的所有制作者都收取数据库的使用费,信息出售机构收取检索服务的费用。费用的收取有多种原因:支付数据库生产的费用,开发新产品,获取利润(在商业部门)。政府的收费一般低于工业界的收费。价格相对较低的原因是因为数据库是用税收资金来制作的,所以有给用户提供更大机会的社会性责任。他们认为,费用不应当成为用户使用的大关卡。

政府制作数据库的低价使用,被私方看作是不公平的竞争。政府制作数据库的成功,会使私方失去机会。当同一内容政府和私方都有数据库时,矛盾会更尖锐。所以一般来说,政府数据库倾向于处理防务、基本服务(教育、保险、灾害信息等)、健康医疗;而商用数据库更多是面向商业、比较喜欢在短期内取得收益。

越界数据流   因为喜欢信息自由流动和保护贸易、商业以及科学技术和政府秘密之间有矛盾,所以越界数据流是一个问题。在商业界,维护公司的专有信息,对取得市场并在市场上保持竞争地位是至关重要的。国家的科技进步和由此相关 · 的研究成果信息的利用,会引导产品和生产过程的进步,给国家安全和繁荣带来极大的好处。同时,信息是社会的产物,可以越过国界而造福人类。通常要遇到保护内容一方面是版权、数据专有权和商业限制,另一方面是互惠协定和双边协定。越出提供和交换信息正式协议的进一步问题是:电子形式的数据常常可在所有人不知道或未许可情况下进行传输,如果不能够检测的话,这种违约是难以阻止的。

拷贝权和卸载   微机(包括便宜的PC机)可由培训过的检索人员和终端人员来存取数据库。就数据库制作者而言,这是一件喜愁掺杂的事情。随着终端人员使用数据库越来越多,用户数扩大是肯定的。另一方面,因为微机有处理和储存能力,所以对微机编程序(或用商业可用程序)用以卸载信息(取自主机的信息,例如由在线主机卸至微机或智能终端的存储器)和存在微机中以备再用是可能的。这样就提出了一个问题,因为数据库一般受版权保护,数据库制作组织是依赖于数据库使用费用和版权税收来发展和维护数据库的。数据库制作者不想在不知道和没有得到公正报酬情况下,其数据被人拷贝和重新处理。许多数据库允许一次性使用的卸载,亦即检索输出需重新格式化和排列,但这不包括继续储存和重新查找。

因为数据库使用次数越多收益越多,所以如果数据库被卸装用于重复查找,则收益就会减少。卸载节约了用户的费用,但最终会带来损害。数据库制作人和出售人收入减少,可能会迫使他们提高价格,最终引起数据库危机。另一令人烦恼的方面,是会出现商业机构取出数据库核心部分,然后重新格式化,或在原来数据库上加进一些新的数据做成一个新的数据库,或两者兼有的可能性。这样的做法不但会减少数据库制作者的收入,而且会使数据库制作者和利用这些数据库制作新的数据库人之间对立化#卸载现象在急剧增长,因为这样做容易,具有这样功能的软件包很多。数据库制作者试图发展允许重复使用和重新出售,但给制作者适当报酬的计划。

光盘   数据库在传统上是存放在磁带里的,小的专业数据库放在软盘里。现在光盘技术即视频盘技术提供了一种存放数据库的新装置,一种档案存放的方便办法。光盘显示了几个重要的特点。光盘以极高的密度储存信息(每一盘片有五亿或十亿多字符,依制造商而定),不但有存储文字资料的能力,而且还有储存图表信息的能力,源盘制作好以后,再拷贝花费很少。光盘是数据库制作者存放数据库的新途径。

有些光盘是只读式的,即一旦制好,数据就不能再变动。近来,许多读一写式光盘也已投入使用。一片光盘可以容纳要几十盒磁带才能存下的数据库,而光盘的复制仅需几美元。光盘取代在线数据库的潜力是存在的。光盘给数据库制作者带来的优点是可知道用户是谁,否则用在线数据库的话,在线信息出售机构把用户看作是他们的顾客,并不乐意把使用的信息传回给制作者。在决定是否把数据库存放在光盘里时,联系到不在线使用数据库的潜在损失,制作者们必须估量用户便利否。

数据库产生和处理过程中的更新作用在数据库发展和在线服务的早期,在期刊出版者、数据库制作者(是二次摘要和编索引的期刊出版者)、在线查找服务和通讯公司之间都有清楚的分界线。随着这些分工互相混合,分界线正在被打破。有些变化起因于电子数据库行业的结合和进步。结合与进步现象说明了该行业正在成熟,同时也存有一些潜在的危机,如出现垄断的可能,为了盈利不惜降低数据库质量的可能,而对美国来说,随着许多美国信息机构被外国组织买去,会出现主要和基本信息资源控制权转移到国外的可能。

大多数主要的书籍出版者认为自己也是电子信息出版者。他们以计算机化排字制作全文式数据库,在不危及印刷物销售的情况下,为得到更多的收益,正渴望将数据库联到在线中去。这种全文式数据库的制作和在线使用还没有证明是适宜的,但它们中很多正在进入在线使用,可能处于在给定内容范围内使它们真正有吸引力和有用的前夕。

—般公共可用的在线数据库已经用了十年多了,而且在很短的时间内,可用条目容量增加了上千倍。尽管最初数据库限制在一定的范围内,而现在面向用户的数据库实际上各学科都有。随着收费的增加(尽管所供数据库每小时收费价格十年里已经增加了一倍,但数据库所存的数据增加已经远远超过一倍了),在线服务数量也已增加了,在线系统已经很成熟了,同时中间系统的发展已使在线系统更便于使用了。七十年代早期开创性活动是各地倡导人成功的一部分。研究和发展在继续,伴随着倡导人满腔热情的研究和发展,将会迎来如用电话那样使用数据库的一天。

[Science,1985年4月25日]