认知科学与智能研究的进展与我们的策略

发布时间：89年03月28日

姚国正汪云九

摘要本文从信息处理的角度出发，扼要论述了认知科学与智能研究面向计算的工作路线。在分析智能研究的历史和现状的基础上，指出了视觉在该研究领域中的特殊意义，并指出了视觉研究的策略，最后，还阐述了生物系统信息自组织理论对了解脑的工作机制和智能本质、对智能机研制的意义。本文的目的，是要提供认知科学与智能研究的进展与发展的趋势、应采取的策略、技术路线和主要的研究内容。

一、迎接挑战

人类当前所面临的重大科学技术任务之一，是要揭示大脑的工作机制和人类智能的本质，以便制造出能模拟人的智能活动的智能机器，开发智能应用技术。在过去的十年中，一条通向理解大脑到底是怎样工作的行之有效的研究路线，已越来越清楚地显现了出来：我们不但必须研究脑的生物化学和生物物理机制，研究脑的实际知觉行为，而且还必须从理论上来研究脑，也就是说，我们需要研究脑实现其功能时所必须进行的计算（即信息处理）。事实上，即使像“看”和“运动”这种看上去极简单、极容易解决的普通任务，也必须进行复杂的信息处理才能够完成。因此，正确理解脑怎样才能解决由视觉、运动控制等功能提出来的问题，是极为重要的。自然，理解脑还需要研究执行各种信息处理任务所使用的具体方法（算法），研究神经硬件实现这些具体算法的方式（机制）。计算、算法和神经实现，这是我们研究脑和认知问题的三个主要层次（D. Marr，1982）。

关于脑究竟怎样处理信息这个问题，神经科学、心理学、计算机科学各自提出了一些很有价值的看法。为了在上述各主要层次上充分理解脑，有必要把这些不同的学科汇合起来，制定共同的研究目标和工作计划。另一方面，在人工智能、知识工程、机器视觉、机器人学等领域中，当前正在发展一门包括视觉和运动控制在内的信息处理科学的基础。在这些研究中，科学家是把人脑作为一台复杂而威力强的信息处理机的洁样板看待的。神经科学和心理学可以从这些理论进展中汲取营养，因为这些理论有助于指导实验研究，引导它们去探索脑的信息，处理的实质性问题。反过来，实验研究也一定会促进理论的发展。因此，我们正面临着一个挑战，这就是要面向计算，把从事上述理论研究和实验研究的科学家联合起来。这种联合可能会导致脑和认知科学研究重点的策略性转移。中国科学院认知科学及智能研究；柔性中心的成立，是迎接这一挑战所采取的一个重要部署。

二、智能研究的历史和现状

从信息处理的角度出发研究脑和机器的智能，并不是始于今日。我们至少可以追溯到50年代认知心理学和人工智能的草创时期，更早可追溯到图灵的自动机理论。但是，把智能机研制0为一项科学技术的战略任务，则是近几年出现的一个新事物。

从脑和机器智能研究的历史来看，它主要是沿着两条不同的途径展开的：一条是人工智能（强调功能），另一条是神经网络（强调结构）。现在，我们面向计算，已有可能把脑的功能和结构统一起来加以研究，而且随着光学技术和电子学技术及超导研究的迅速进展，制造智能机已成为一个相当现实的问题。

人工智能主要用计算机模拟人脑的思维功能。逻辑理论家程序（LTA. Newell和H. A. Simon，1956）、通用问题求解程序（GPS，1960）、初级知觉和记忆程序（EPAM，E. A. Feigenbaum，1961）、化合物结构解释系统（DENDRAL，1971）、传染病辅助医疗系统（MYCIN，E. H. Shortliff，1976）、等等，反映了人工智能研究的主要成果，体现了人工智能方法的主要特点。这些成果与方法，构成了日本第五代机计划（1982）的基础。如上所述，人工智能着重研究的，是机器的思维问题；解决问题的关键则在于如何表达越识，如何使用知识。由于各种专家系统相继成功问世，看上去机器智能问题似乎已经解决了，致使一些人误以为：把各种专家系统联合成大系统，就是认知科学和智能研究的主要方向。实际上，即使人工智能在机器思维方面是完全成功的，但它在机器翻译、机器视觉等方面还是接二连三地出了毛病。拿视觉来说，它的主要任务是通过观看，认知外部世界中有什么东西，它们什么地方。换言之，脑对外部世界中的时空客体的描述和识别，乃是认知的基础。认知问题的最终解决，将取决于对早期信息处理的研究和认识。因此，认知科学研究的重点是如何获取知识。这主要是一个归纳问题。要使传统的冯 · 诺依曼计算机具有人那样的视觉功能是难以想象的。另一方面，从方法上来说，人工智能是单一层次上的研究，即算法层次上的研究。事实上，算法是受计算问题和实现机制约束的。虽然人工智能提出过一些有益的建议，但它不可能全面地解决认知问题和机器智能化问题，当前，所谓智能模式识别研究，实质上都是在Marr的计算框架指导下展开的，是在三个层次上进行工作的。

神经网络采用自下而上的方法，它从结构出发，研究脑的功能。神经元的阈值元件模型（W. S. Mc Culloch和W. pitts，1943）、线性元件模型（H，K. Hartline. 1965）、神经记忆模型（E. R. Caianiello，1960）以及K. S. Lashley（1950）的记忆定位研究，D. O. Hebb（1949）的学习律，乃至F. Rosenblatt（1962）的感知机，都可以认为是神经网络早期研究的代表。特别是阈值模型，它是最终导致诞生冯 · 诺依曼电子计算机的重要因素之一。当时人们的确是把它作为仿脑机器来看的。这种二进制串行机器的工作是由人（通过程序）操纵的，机器并不理解自身工作的意义。如前所述，这种机器不适用于处理感知（特别是视觉）信号的识别问题。神经网络研究的基础，是神经生理学、心理学、临床神经病学、计算机科学。我们现在知道，缺乏高瞻远瞩的观点和理论指导，是导致机器感知研究失败的主要原因，而这正好为Marr开创视觉计算理论提供了机会。

Marr的视觉计算理论不但有力地促进了人工智能的新发展，而且对神经网络的研究具有重要的指导作用。计算视觉正在发展成为计算神经科学。在70年代，福岛邦彦（1975）提出了认知机，T. Kohonen（1977）提出了联想记忆理论，但并未形成网络研究的高潮。80年代初，由J. Hopfield（1982，1985）提出的理解神经网络集体运算功能的理性框架，引发了神经网络研究的第二次高潮。而这个框架，如Hopfield本人指出的那样，正是在Marr的理论指引下发展起来的。神经网络动力学和联接主义（J. A. Feldman和D. H. Ballard，1982）相结合，构成了并行分布处理（D. E. Rumelhart和J. L. Mc Clelland，1986）的基础。并行分布处理的特点是：从微观结构出发研究认知算法，即通过由神经元和突触构成的神经网络模型研究，提出心理学算法。利用这种思想与方法，美国已研制出玻尔兹曼机和连接机。

鉴于当今神经网络研究所取得的巨大进步，美国电气电子工程师协会于1987年6月在圣迭戈召开了首次国际神经网络学术会议，成立了国际神经网络协会（INNS），出版了神经网络杂志（Neural Networks）。会议的主要论题包括：（1）神经计算领域正处于蓬勃发展的状态；（2）人工智能山穷水尽，网络计算欣欣向荣；（3）我们的目的是要制造一个脑；（4）下一步应该做哪些研究；（5）神经#算机能做什么工作。对于第（5）点，专家们提出，神经计算机（即智能机）主要具有下述功能：

1. 能训练神经计算机做算术运算和各种逻辑运算，制定输入——输出映射一览表，实现巴甫洛夫条件反射；

2. 能识别二维时空模式。例如，印刷体或手写体数字和字母、人脸、船舶、飞机、光谱、色谱、声呐、心电图、语音、音乐等；

3. 能识别不完整的、大小不同和朝向变化的模式！

4. 是出色的专家系统；

5. 有快速检测数据库的能力，即使信息不完全也能完成检测任务；

6. 可用来研究神经生理学，心理学，认知科学；

7. 能解决串行机所不能解决的“硬”问题；

8. 能进行智能活动。

由此看来，面向计算的并行分布处理是研究智能的有力工具，是目前研究脑的工作原理和人类智能本质及智能产业的一个主要方向。

三、关于视觉研究

在论述人工智能和神经网络时，我们曾两次提到Marr的视觉计算理论的重要性。实际上，全面地研究视觉信息的接收、传递、加工、识别、利用，是揭示大脑奥秘的一个突破口。（视觉信息加工）是国家自然科学基金会确认的重点项目之一。因此谈认知科学和智能研究，就不能不提到视觉研究问题。

有不少专家认为，Marr的计算理论（1982）是迄今最完善的视觉理论。N. S. Sutherland（1982）指出：Marr所著（视觉）一书，可能是自亥姆霍茨发表（生理光学）以来关于本学科的一部最重要的著作。它使神经科学研究第一次有了理论上的指导。Marr理论的要点是：

1. 该理论认为，视觉是一个复杂的信息处理任务，其主要目的，在于通过观看认知外部世界。因此，视觉研究的核心是视觉的表象问题和处理问题。

2. 要完整地理解视觉，就必须在三个不同的层次上对它进行解释。这三个层次是：计算理论、表象和算法、硬件实现。

3. 从理论层次看，视觉任务是分阶段完成的，视觉信息处理必须用三级内部表象来描述，这三级表象是：图像表象、可见表面表象、三维模型表象。

4. 视觉是按功能模块的方式组织起来的。换言之，在图像中被编码的可见表面信息，是由一些几乎互相独立的处理过程分别实现解码任务的。

5. 在研究各处理过程、从图像恢复表面几何结构时，用公式表示计算理论的一个关键性步骤，就是要根据外部世界的一般性质，找出有关问题的约束条件，并把它们变成精密的假设。从而得到确凿的、经得起考验的结论。

因此，计算理论的一个重要特征，在于它使视觉研究从描述的水平提高到分析的水平，应用数学物理方法对认知过程进行分层次的系统的描述，这是Marr的一个创举。它的威力是那么强大，以致视觉计算理论一出现，大批令人瞩目的新成果便竞相涌现，构成了一幅光彩夺目的美丽图画。计算视觉不仅一跃而为当今世界视觉研究的主流，而且揭开了计算神经科学的序幕，迎来了神经网络研究的第二次高潮。特别是神经网络集体运算性质的研究，向冯 · 诺依曼计算机提出了有力的挑战。揭示出能把大量神经元组装成具有高级功能的系统的设计原理，已成为当今智能研究的中心课题。神经计算机和视觉专家系统，则成了科学家们热烈讨论的话题。

由此可见，Marr的理论开创了视觉和神经科学研究的一代新风。他当时采取的研究路线是：计算理论→算法→实现机制。他之所以强调理论，是因为理论是一个新的解释层次，实际上在他之前并不存在什么视觉理论。但是，Marr本人曾明确指出：计算视觉的真正威力，在于理论、算法、硬件这三个层次上的综合研究。从算法的角度考虑，就必须强调上述三个层次之间的相互作用。因为算法不仅必须计算出理论所指定的功能，而且算法在硬件实现上必须是可能的。神经硬件本身也是一种约束条件。T. Poggio（1985）提出的视觉正则化理论，主要研究的是算法。他提倡的计算生物物理学的研究路线是：理论→算法←实现机制。Poggio所强调的，是实现算法的神经机制。因为非如此，就不可能了解脑的工作原理，而智能机的体系结构设计也将成为无本之木。

但是有一种见解认为，神经科学对研制智能机是无关宏旨的。显然，这种把功能和结构割裂开来的看法，这种把智能机研制和基于神经网络的认知算法研究割裂开来的看法，是站不住脚的。诚然，大脑是极其复杂的。大脑大约有150亿个神经元，神经元有200多种，而且每个神经元与其他神经元一般大约有1万个实触联系。这是一个“巨系统”。正因为如此，才需要从各个不同的层次上来研究脑。那么，怎么办好呢？模拟大脑的结构，看来是不明智的，事实上也是不必要的。但在神经科学中，面向计算的认知算法研究是不可或缺的。事实已经表明，这一方法有助于揭示脑的工作原理，可以为智能机的设计提供生物学方面的依据。我们认为，在智能研究中，神经科学非常重要。麻省理工学院脑和认知科学系教学大纲（1986）、加州理工学院制定的计算和神经系统研究计划（1986）、波士顿大学制定的认知和神经系统研究计划（1988）、日本提出的人类前沿科学研究计划（1986）、国际神经网络协会设立的中心课题（1987），都可以说明这一点。

生物的功能和结构统一，这是人们坚信不疑的一个观点。我们现在要强调的，只是使用功能的语言来描述结构，以便了解、把握这种统一。在视觉研究中，有人已经证明，神经网络是能够实现视觉功能的（例如视觉运动，C. Koch etal. ，1986）。如果我们要在网络层次上了解视觉识别功能，那么就应当采取下述策略：

1. 根据神经生理学和神经解剖学结果，提出视觉各级水平上感受野的合理的数学模型；

2. 以模型神经元为基础，建立具有初级视觉功能的神经网络模型，并用心理学方法对模型的功能加以检验；

3. 研究神经网络的学习和联想记忆功能（以及神经网络的复杂行为，例如极限环吸引子和混沌叹引子的计算意义）；

4. 在上述研究基础上，进一步建立能自动识别视觉3像的多层次神经网络模型。

神经网络计算功能研究的主要技术途径是计算机实验和心理物理学实验。根据上述策略，我们已经提出了视觉神经元的广义Gabor函数模型（汪云九，1985），提出了立体视觉、纹理检测、运动方向检测、超视锐度现象的计算模型。目前，我们正在开展神经网络非线性和动态特性方面的工作。我们相信，如果这项研究能贯彻到底，就有可能揭示网络层次上的视觉工作原理，为智能模式识别机器的体系结构设计提供生物依据。

四、一个新的动向——生物信息的自组织理论

自组织理论是研究脑的工作原理和人类智能本质、研制智能机和智能应用技术的另一条可行的途径。通常，生物信息的自组织理论叫做新神经科学（或生命关系学）。清水博（1987）指出，生物信息时自组织有以下特点：

从发生学的角度来看，生物是能够产生信息的，因此，在研究生物信息处理时，不宜照搬物理学方法（例如热力学方法，它把信息看成是负熵，信息包含在熵中，而系统的熵总是增大的）。由于生物物理学并不简单地等同于生物学加物理学，所以必须开创新的研究方法，要勇于创新。从协同学（H. Haken，1977）和耗散结构理论（Z. Prigogine，1977）这些新系统论出发。

生物所产生的信息，实际上是系统自组织所产生的耗散结构&系统自组织的必要条件是：（1）系统是开放的，（2）系统远离平衡态，（3）系统中必须有非线性因素作用。不难证明，生物系统是满足上述条件的。

系统自组织的一个典型例子，是激光器发射出激光束，假定系统原先是稳定的，它在原点处于稳定的平衡态。但是，随着外界参数的变化，稳定的平衡点就变得不稳定了，并形成（一对）新的稳定点，这就是“分叉现象”。分叉提供了产生新结构的可能性。在随机涨落的作用下，系统从原有状态跃变到一个新的稳态，出现“对称破缺”，形成新的结构，这种结构就是系统自组织所产生的宏观有序的耗散结构。对物理系统，当外界能量供应被切断时，系统的耗散结构将彻底地消失。但在生物系统中形成的耗散结构则必须“固化”，成为固定的结构。这种结构对组成系统的要素（例如：肌肉中的肌浆球蛋白纤维，视皮层中的超柱）具有制约或使役作用。也就是识，系统的这种“场信息”起着操作信息的作用。于是，系统就能在新的条件下进行自组织，产生出高层次的有序结构。可以认为，这种演化正是生物的发生过程，在大脑中形成信息长期记忆的过程。

除操作信息外，生物系统中还存在意义信息。光靠生物自身产生的操作信息，生物是不能认知外部世界信息的。生物是在严酷的环境中生存、不断进化的。因此，它必须不断地调节自己，必须正确地处理外界信息，从外部信号中自发地产生信息。另一方面，不具备一定机能的生物是无法生存的。所以生物中的信息与生物的机能是有联系的。换言之，生物信息对生命系统的生存是有意义的、有价值的，生物中的信息必定是在意义论上的信息。对生物有意义的信息叫做自我意识（一般可分为知识、情堵、意志三部分）。它的主要功能是区分自我与雅自我。因为非如此生物就无从区分信号是从外部输入的还是由内部产生的，所以也就不可能感知外部信号。大脑的自我意识结构是作为自我而存在的一种意义系统，是自我的一切信息的整合体，即我们意识到的全部信息之间的一种内在关系。

例如，我们来考虑图形与背景的分离问题。在输入图像时，视觉感受器细胞兴奋，形成某种空间分布形式。这就是原始信息（不含什么意义的信息）。原始信息被并行地输入脑，在脑中作并行处理。脑“合并”一部分原始信息，产生图形；“压缩”另一部分原始信息，构成背景。根据图形全体的意义，就能对组成图形的各个原始信息赋予要素的意义。很明显，这种信息的合并与压缩，只有在意义系统的约束下才能完成（否则，必然会陷入演译逻辑推理的解释学循环之中）。图形躭是我们的知觉像，即为自我意识所认识的有意义的信息。有线索说明，它正是视皮层神经元兴奋通过协同作用，自组织而产生的一种耗散结构。由是观之，人对外部世界的认识，乃是大脑在意义论上的信息自组织的一种结果。

根据上述认知机理制造出来的智能机至少具有这样两个特点：（1）它是自编程的（因为生物能自发地产生操作信息），（2）其计算结果将由机器自身予以解释，产生意义（因为生物能自发地产生自我意识，形成意义系统）。从这两点来看，智能机与传统的冯 · 诺依曼机是截然不同的。因此，生物信息自组织理论不但是我们理解脑的工作原理和智能本质的一种有用方法，而且也为我们研制智能机开辟了一条新的道路。

五、对认知科学与智能研究内容的建议

综上所述，我们认为：

1. 关于认知科学与智能研究，采取面向计算，利用交叉学科，在各个层次上探讨脑的工作原理和人类智能本质，研制智能机和开发智能应用技术，这是一条切实可行的路线。

2. 在该项目研究中，视觉研究具有特殊的意义。在视觉研究中应强调神经网络层次上的视觉功能研究，采取计算→算法←硬件机制这样一种研究策略。

3. 当前，我们还应当充分重视生物中信息自组织理论即生命关系学的研究。

4. 根据上述认识，认知科学和智能研究，应当由基础研究和智能技术两部分组成，它们的主要的研究；内容是：

（1）基础研究

1.1脑功能和结构的实验研究，包括神经生理学、神经解剖学、心理物理学、认知心理学等；

1.2 理论研究，包括计算神经网络动力学、并行分布处理、生物信息的自组织等。

（2）智能技术

2.1智能机的研制（特别是智能机的功能和体系结构的研究，以及智能机的目标和需求的研究）；

2.2智能应用技术，包括计算机智能辅助设计、软件生产自动化、计算机视觉、实时图像处理系统、自然语言理解、文字和书面语言的理解和机器翻译系统、知识工程、智能机器人等。