社科网首页|论坛|人文社区|客户端|官方微博|报刊投稿|邮箱 中国社会科学网

【叶峰】论语言在认知中的作用

 

一、引言

20163月,谷歌的人工智能程序阿尔法围棋(AlphaGo)以四比一战胜世界围棋冠军李世石九段,这是人工智能发展史上的一个标志性事件,更是人工智能研究中人工神经元网络进路之成功的一个标志性事件。符号计算与人工神经元网络是人工智能研究中模拟人类智能的两个进路。自上世纪50年代人工智能产生以来一直存在两个进路之间的竞争,但符号计算进路一直在几乎所有人工智能研究领域中占据主导地位。主流人工智能研究者不认为人工神经元网络算法能够实现通用智能,而是仅仅将其视为几种实现机器学习的方法之一,而机器学习只是众多人工智能研究领域中的一个①。直到2006年左右,深度人工神经元网络的学习算法获得突破,使得深度人工神经元网络在解决一些应用问题上超越了传统的符号计算方法,特别是解决了一些传统符号计算进路无法解决的问题。因此,近十年来人工神经元网络进路越来越受到主流人工智能研究者以及工业界的关注。特别是在最近几年,在许多人工智能研究与应用领域中,人工神经元网络进路都有取代符号计算进路的趋势②。

人工智能的符号计算进路用符号语言表达关于世界的知识,例如,用谓词逻辑的原子语句表达关于简单事实的知识,用条件句表达关于一般规律的知识。它假定,拥有知识就在于拥有描述世界的真语句,具有智能则在于能够对语言中的词项、语句等作恰当的变换处理,包括作演绎推理以及不确定性推理(如贝叶斯推理)等等。它认为,能够通过图灵测试是具有智能的主要标志。所谓图灵测试指的是,让一个人工智能系统与你对话,使得你无法分辨它是一个真人还是一个人工智能系统。将图灵测试作为检验智能的标志,也就是认为具有智能主要在于能够恰当地使用语言。

与此相对,人工神经元网络进路是通过学习来调整一个人工神经元网络中神经元结点上的权重分布,学习的结果是一个具有恰当的权重分布因而能够完成某种任务的人工神经元网络。这样一个人工神经元网络应当也记录了关于世界的一些知识,但它不是将知识记录成符号语言中的一系列语句,也不能简单地转换为这样的一系列语句。事实上,人工神经元网络进路在模拟智能时不需要使用符号语言,既不用语言中的语句来描述简单事实及一般规律,也不对语言中的语句作逻辑或统计推理。例如,一个人工神经元网络经过学习后能够识别猫、狗、人、汽车等几类图像,但学习过程中不涉及任何描述猫、狗等的外表特征的语句,学习的结果中也不包含这样的语言描述。同样,阿尔法围棋系统中也没有用语言表达的棋理规则,比如关于什么情况下应该打入、什么情况下不应该的规则。人工神经元网络进路的成功似乎说明,语言对于认识世界、记录关于世界的知识以及进行像下围棋那样的高级智能活动来说,并不是必不可少的。也就是说,拥有知识不必在于拥有真语句,运用智能不必在于对语句进行正确且高效率的推理。

这促使我们哲学研究者重新思考语言在人类认知活动中的作用,因为,20世纪分析哲学中的所谓语言转向正是将语言的使用视为人类认识世界的活动的核心。一些20世纪分析哲学家假设了这样一幅关于语言的图景:语言是人类心灵通达世界的通道和媒介,所有认知活动都不得不通过语言,最终都是使用语言的活动,因此分析语言,特别是分析语言如何具有意义,成了探索世界、回答关于世界的认识论与本体论问题的关键。其中一些哲学家如早期维特根斯坦、卡尔纳普、奎因、戴维森等接受真值条件语义学或冗余论语义学,认为语言是像图画一样描绘世界。但因为我们不得不在语言背后透过语言这层幕布或有色眼镜看世界,而语言可以有多种而且蕴含一些不确定性(即有多种语言框架的选择,有指称及翻译的不确定性等),因此这些哲学家又认为,我们不能看到完全真实、完全客观的世界。另一些哲学家如后期维特根斯坦、达米特等认为语言的意义在于其使用而不是描绘世界。这样,意义本身不是完全客观的东西,因而世界也不是我们初看起来那样的实在。特别是达米特,由分析语言的使用如何确定语言的意义得出了一些关于世界的反实在论的结论。这是一个“主体—语言—世界”三分的图景,其中语言将主体与世界隔离开,同时又是主体认识世界的媒介,因此语言在这个关于主体与世界的关系的图景中处于中心地位,研究人类认识世界的活动也因此主要在于研究语言。“我的语言的界限就是我的世界的界限”是这个图景的一种概括。如果我被我的语言包裹着,与世界隔离开,而且我的语言的界限就是我能见到的世界的界限,那么我将不得不依靠使用语言来探索世界,同时依靠分析语言来探求世界的界限,探求世界上可能有怎样的存在物。

分析哲学界的学者们迄今为止已提出了许多与语言在人类认知及智能活动中的地位相关的观点。事实上,各种观点的组合都有人尝试提出并为之辩护(参见博登,2001Carter2007Fantl2012)。比如,有的学者认为,我们的关于“如何做”的知识(know-how)不是用语言表达的命题性知识,也不能转换为命题性知识。有的学者进一步认为这种知识是非表征性的,既没有使用语言来表征事物,也没有任何其他形式的表征,即他们认为大脑不是通过构造对世界的某种表征模型来记录这些关于“如何做”的知识并控制行动。有的学者甚至进一步认为,直观上明显属于命题性知识的那些知识其实在大脑中也不是被记录为类似于语句的信念,他们完全否认大脑中存在类似于语言中的词项、语句等等的概念和信念。这些是所谓取消主义者,他们否认语言在认知活动中具有中心地位。也有学者否认大脑中存在任何形式的表征,不论是语言表征还是其他非语言的表征。这些是彻底的非表征主义者。还有的学者不否认语言在智能活动中的核心地位,但强调我们对于日常语言的使用活动不能理论化,不能用一些语言规则来概括,同时他们也否认语言的意义在于表征事物。这包括德雷福斯(Dreyfus)那样推崇海德格尔和后期维特根斯坦对语言及常识的思考的学者。还有一些学者如塞尔(Searle)没有否认拥有知识在于拥有真语句以及具有智能在于能够理解及恰当处理语言,也没有否认语言的意义在于表征事物,但他们强调,语言的意义不能完全归结为对语言符号的纯形式上的操作变换。以上所列举的是哲学家们已经提出的、对语言在认知及行使智能中的作用的种种哲学观点。当然还有认知科学家及人工智能专家们提出的涉及技术性方面的许多观点和理论。

本文的反思主要是哲学上的反思,但本文将采取一个新的、涉及一些技术问题的出发点,它是受人工智能研究中的人工神经元网络进路的启发而注意到的三个事实:(1)人类语言是一维符号系统,而世界及其中的事物是四维的,这使得人类语言不能有效地记录世界中的事物的时空结构信息;(2)大脑神经元网络可以实现一个多维而非一维的表征系统;(3)语言的真正功能是在大脑间传递多维表征,而不是用一维符号序列去表征世界。笔者认为,注意到这些事实是澄清许多相关的哲学问题的关键。一方面,这些事实能够说明分析哲学中的“主体—语言—世界”这种三分图景的错误何在。另一方面它们又意味着,否定语言在认知中的中心地位不等于放弃表征主义,大脑中还是可以有对世界的表征模型,但它们可以是多维的、以神经元网络为基础的表征模型,而不是一维的语言表征。大脑中存在对世界的表征这一点,既符合常识中的直观,使得我们可以理解、想象大脑如何运作,也有科学证据的支持,因此保留它应该是一个优点。从这些事实出发也可以说明,我们的常识包括日常语言的使用并非原则上不能理论化,只不过是不能用一维的语言有效地理论化。换言之,理论化,或运用理性智能来概括知识,不必是用一维语言陈述一些规则来作概括,然后进行一维语言中的推理,它还可以是恰当地构造抽象的、具有概括性的多维表征,以及对多维表征进行有规则的处理变换。同时,这些事实也告诉我们,语言的意义不能完全归结为对语言符号的纯形式的操作变换,但我们可以更进一步为语言的意义究竟何在提出一个解说,即语言的意义在于与语言符号相关联的大脑中的多维表征。因此,从这三个事实出发,我们可以澄清、甄别上面所提到的种种有关语言在认知及行使智能中的作用的哲学观点的正误,可以对相关的一系列问题都提出自己的回答。

但限于篇幅,本文只能详细阐述作为这个出发点的三个事实,以及它们对分析哲学中的“主体—语言—世界”图景的解构。对于其他问题的详细论述要留待以后的研究。

二、一维语言与四维世界 不论是自然语言还是现代逻辑中的形式语言都是一维符号系统。语言的最基本的成分是互有差异但没有内在结构的一些符号,语言的表征单元即词组和语句则是由符号组成的一维线性序列,即符号串,它们只能通过各种符号在一个一维的符号串中的相对位置来记录世界的信息。对语言表征的操作变换只是对一维的符号串进行匹配、切割、连接、替换等等。逻辑推理就是对一维的符号串的这种匹配、切割、连接及替换。例如,假言三段论就是匹配和切割,代入规则是替换。假如世界也是一维的,世界中的事物之间的关系只有一维线性序列上的相对位置关系,那么语言可以很直接地、很完整地模拟世界。但世界是四维的。每个物体本身占据三维空间的一个部分,而且在时间维度上会发生变化,所以一个物体是四维时空中的一个部分。物体之间也是在四维时空中有相对位置关系,包括(可能是动态的)包围、嵌入、缠绕等等复杂的相对位置关系。

用一维的语言难以记录四维事物的时空结构信息。比如,考虑如何用语言记录这个房间内的物体及其部分的相对时空位置(包括它们在时间维度上的变化)。相应于公理化几何与坐标几何,也有两种用语言来记录的方式。一种是直接用谓词逻辑语言中的语句描述物体及其部分的相对时空位置关系。这需要赋予每个物体及其每个部分一个名字,然后用表达相对位置的谓词加一系列名字为主目,构成原子命题,来表达它们之间的相对位置。例如,

a:瓶子,b:瓶盖,c:瓶中的水,d:桌面;

 

同时还需要全称语句来帮助确定这些谓词的意义,例如,

 

但很显然,以这样的方式很难记录所有四维的结构信息。这种直接使用谓词逻辑语言来表征世界的方式,是先把四维世界的结构信息碎片化,用一个原子命题那样的一维符号串来记录四维世界中的某一小片结构信息,然后将许许多多这样的符号串以一维的、线性的方式连接起来,试图以一个很长的、一维的符号序列,来完整记录四维世界的所有结构信息。也许原则上一维的符号序列可以记录四维世界的所有结构信息,而且原则上可以由一维记录再重构四维结构,但这中间不得不经过大量多余的、很不自然的转换,带来大量的冗余计算。更为困难的是表达四维物体的动态规律,如“碰瓶子的上部更容易使瓶子倾倒”这种动态规律。另一个人们熟知的难题是所谓框架问题(frame problem)。瓶子的倾倒对于四维世界来说只是一个局部的变化,但对于(1)那样的描述世界的语句序列来说,为了从描述瓶子倾倒前的世界的语句序列变换到描述瓶子倾倒后的世界的语句序列,需要进行极为复杂的、非局部的操作。例如,这个瓶子的倾倒与旁边那个瓶子本不相关,但倾倒前这个瓶子与那个瓶子平行,倾倒后则与它垂直,所以,所有记录两个瓶子之间的位置关系的命题都需要更新。瓶子的倾倒不再是一个局部的事件,而是成了“一维符号世界”中的全局性事件。这就是所谓框架问题(cf.Shanahan2016)。这些都显示以这种方式不能有效地表征世界。

另一种用语言记录四维世界的结构信息的方式是设立时空坐标,将时空分割成小方块,将一个物品看作一些时空小方块的集合,然后用语言描述每个时空小方块的特征,比如颜色、硬度等等。这也是先将四维世界的结构信息拆解、一维化成一个由数字等符号构成的线性序列,只不过在一维化过程中用了一个统一的编码,即坐标编码。然后,物体的四维结构特征需要在这些一维记录上来回作数学计算得出。

当一个物体的形状比较规则时,我们可用算法函数压缩对物体的坐标表征。比如,对一个规则的圆柱形,我们可以用一个数学方程表达一个条件,坐标满足此条件的小方块就是属于这个圆柱形的小方块,而不必将所有那些小方块的坐标列出来。而且此时容易用一些较快速的算法计算出物体的一些特征,包括动态特征,比如确定属于这个圆柱形的底部、侧部的小方块,确定圆柱体倾倒过程的轨迹等等。但是,对形状不规则的物体就只能靠在一维的坐标记录上来回穷尽列举、穷尽搜索得出其四维结构特征(含动态特征),这就带来许多冗余的计算。同样更为困难的是表达“碰瓶子的上部更容易使瓶子倾倒”那样的动态规律。

要以智能的方式表征世界,表征产品应该比世界本身更简单,应该能够恰当地忽略世界中的事物的一些不相干的细节,进行抽象,同时,对表征产品的操作变换应该比被表征的事物的实际变化更简单,这样才能体现出智能。但是,用一维的符号系统来表征四维世界,总是不得不先将世界的四维结构信息拆解、碎片化,用一维的符号串来记录一小片信息,然后又以一维的连接方式拼接,试图以此完整地记录四维世界的结构信息。同时要用对一维符号序列的处理变换对应四维世界中的物体的变化。这使得表征产品在某些重要的方面扭曲了被表征的事物,因此表征产品以及对表征产品的操作处理,比被表征的事物本身以及它们在实际时空中的变化还要复杂。这不能达到智能的目的。也许原则上可以用一维的语言完整地记录四维世界的信息,但智能在于有效地做一件事,而不是原则上可以做什么。例如,原则上我们可以用穷举法下围棋,但这显然不是智能的方法。用一维的语言表征四维的世界,即使原则上可以做到,似乎也不是智能的方法。

三、大脑中的多维表征系统

人类大脑对世界的表征很可能是用某种由神经元网络实现的多维表征系统,而不是一维的语言符号系统。以视觉表征为例(cf.Goldstein2010)。已知初级视皮层对所见物体的表征直接保留了物体的空间结构信息,是一种近似于拓扑同构的表征,相近的神经元对应于物体上相近的线条(edge),物体上的线条之间的相对位置信息被直接记录下来。所以,初级视皮层中的一个表征单元自身应该被理解为一个多维的结构,而且是用自身的多维结构直接记录所见物体的多维结构,而不是记下一些一维的、线性的结构,然后再以一维线性的方式拼接这些记录,来记录物体的空间结构。初级视皮层可能只是记录了线条以及线条的相对位置信息。对于识别由线条构成的物体(object)的神经元机制以及识别物体的运动的神经元机制等等,我们还所知甚少,但当代计算视觉理论中已经提出的一些表征物体的模型,都很自然地是多维模型而不是一维的模型,不是用类似于语言中的语句那样的一维符号序列来描述线条如何构成物体(cf.Frisby and Stone2010)。一些心理实验似乎能够证明大脑中有视觉图像那样的表征(cf.KosslynThompson and G.Ganis2006)。同样,用深度人工神经元网络进行图像识别时,网络的中间层次的结点可以表征图像中的线条、轮廓、物体等,这些也是直接保留了事物的空间结构信息的表征(cf.GoodfellowBengio and Courville2016Chapter 1Fig.1.2)

一个神经元可以与许许多多个神经元连接。这种灵活的连接方式应当使得神经元网络可以直接地模拟多维结构,虽然我们还不清楚其中的机制。比如,想象一个由空间中的一些点构成的一个空间立方体。将每个点看作一个神经元,每个点与相邻的点有线条连接。这是一个三维结构。再想象有一系列这样的立方体,而且前一个立方体中的每个点有一条线与后一立方体中的一个对应点相连接。这样一系列的立方体实际上就构成了对一个立方体在时间维度上的变化的记录,即表征了一个四维(而不是三维)的结构。也就是说,三维空间中的点可以直接表征四维结构,只要点之间可以灵活地连接。(一维符号串中的符号之间恰恰不能这样灵活地连接;在一维符号序列中,每个符号只能固定地与左右相邻的两个符号连接,一个符号序列中的任意两个符号之间只有一个关系,即中间相隔几个符号这个关系。)这仅仅是设想一个例子。人类大脑表征三维物体及其在时间维度上的变化的方式,肯定比这个更有效。这只是想表明,有理由相信,神经元之间的灵活的连接方式,应该使得大脑可以较直接地表征物体的四维结构,虽然我们还不清楚其中的机制。所以可以设想,大脑神经元网络对事物的表征应该是多维的,不是一维的。

事实上,我们可以进一步设想大脑中存在三维物体的缩微模型,而且不只是静态物体的缩微模型,如前面所描述的,可以设想大脑中有物体在时间维度上的一系列变化过程的缩微模型。至少,当我们试图设计一个可以表征四维世界的机器人的人工智能系统的时候,可以尝试让机器人人工智能系统内部的东西这样直接地模拟外部四维世界及四维物体。然后,世界中物体的运动、变形等就直接被表征为大脑中的缩微模型的变化,反之缩微模型的变化也就是大脑对世界中的事物的变化的想象。然后,可以再设想,大脑能够将两个缩微模型进行模式识别中的那种匹配。比如,大脑观察到一只手水平地推瓶子的上部,大脑中生成这个场景的缩微模型,然后大脑将这个缩微模型与记忆中的一个具有类似开端的四维缩微模型匹配成功,由此就可以根据记忆中的那个四维缩微模型的结局预测到这个瓶子将倾倒。同时,缩微模型还可以直接参与控制手去完成扶住瓶子这个恰当的动作。还可以想象,这种缩微表征模型可以有不同程度的抽象。比如,表征一张桌子的缩微模型可以只是一个大致的立体结构,类似于一个大致地像桌子的抽象立体雕塑。类似地,表征“水平地推一个柱形物体的上部使其倾倒”这种场景的缩微模型,可以是像一个抽象动态立体雕塑。这使得一个表征可以匹配许多不同的具体事物或场景。还有,可以想象,这些缩微表征模型可以拆解然后重新组合,可以通过联想互相关联。比如,一张桌子的缩微模型可以拆解成桌面、桌腿、抽屉等等的缩微模型,而且由桌子的抽屉的缩微模型可以联想到橱柜的抽屉的缩微模型,又联想到橱柜的缩微模型等等。这样的一些缩微模型可以构成一个多维的表征系统,能够更灵活、更直接、更有效地表征四维世界中的四维事物。

这些只是设想人类大脑或以神经元网络为基础的机器人人工智能系统可以如何构造对事物的多维表征。至于究竟如何在人类大脑或机器人人工智能系统中实际做到这些,当然还需要许多深入的研究。但既然当代计算视觉理论已经比较肯定大脑中的视觉表征是多维的表征,同时我们又可以设想缩微模型这样的多维表征模型,而且可以设想这种多维表征如何更灵活有效地模拟事物,因此我们有理由相信人类大脑中应该是有一个多维的表征系统。

四、人类语言的真正功能

如果人类语言不适于表征世界,而人类大脑中的表征系统是多维的表征系统而不是一维符号语言系统,那么人类语言的真正功能是什么?

从进化历史看,人类语言的首要功能应该是在大脑之间传递信息,包括传递大脑对世界的多维表征,而不是用一维的语言符号序列自身来记录世界的信息。动物大脑对世界的表征能力的出现显然要早于语言的出现,而且是远远地早于语言的出现。当极简单的动物语言出现时,动物大脑的视觉表征能力已经很强了。因此完全没有必要假设大脑中对物体的视觉表征是像人类语言那样的一维的符号序列。人类语言的出现当然是更晚近的事情。从进化的角度看,不论是动物语言还是早期人类语言的产生,应该主要是为了完成在大脑间传递表征信息这个功能。早期的人类语言应该十分简单,那种简单语言自身显然不足以记录人类从世界获得的丰富的视觉信息。

例如,设想你看一眼窗外,你所能得到的有关窗外的楼房、树木、道路、车辆等等的视觉信息是如此之丰富,使得你几乎不可能用语言详细地、足够准确地记录所有这些事物的形状、色彩、相对时空间位置等等信息。而简单的人类语言之所以能够传递大脑中极其复杂的表征,是因为人类大脑之间的相似性。这种相似性使得两个大脑对同样的物体或场景产生的内部表征(如看见一个物体所产生的视觉图像)大致是相同的。因此,两个大脑之间只需要传递一个很简单的、包含很少信息量的信号,比如,只要传递物体的名字,就可以使它们联想起同样的内部表征,而这个内部表征所包含的信息量要远远超过一个简单名字。比如,你看着窗外说,“一辆红车在树下急刹车”。如果在电脑中每个汉字用两个字节存储,这个由十个汉字构成的句子自身的信息量至多不过是20个字节即160个比特。但由这个句子能够在大脑中产生的视觉联想(包括对动态场景的视觉图像)是非常丰富的,所包含的信息量远远大于160个比特。所以,一维的、简单的语言,虽然略去了大量的四维世界的信息,却可以在人们之间很有效地传递很复杂的多维视觉表征。

有的人可能认为,只有语言符号才能表达抽象概念。这也是一个误解。比如考虑“婚姻”这个概念。“婚姻”这两个汉字所能直接记录的信息量也是太少。即使加上许多其他相关的语言描述,例如“婚姻是两个人的契约”(“婚姻”的字面定义的一部分)、“婚姻是旅程”(隐喻)等等,所能直接记录的信息量也还是太少。我们理解“婚姻”这个概念,依据的是由这个词联想起的大量的视觉及其他知觉表征,比如对婚礼、家庭生活、孩子的出生与培育等等众多场景的视觉记忆,对种种婚姻故事所传达的场景的视觉想象等等。注意,就婚姻故事来说,重要的不是对婚姻故事中的语词本身的记忆,而是对故事所传达的场景的视觉想象,后者比前者要丰富得多。如果没有对旅程中的种种场景、事件的丰富的视觉想象及其他非视觉记忆(比如,对旅途中的新鲜感及疲劳感的记忆),“旅程”这两个字也只是32比特,隐喻“婚姻是旅程”对理解婚姻也无所助益。所以,不是一个抽象名词自身就是一个抽象概念,也不是一个抽象名词再加上一些包含这个名词的相关句子就成为一个抽象概念。一个抽象名词的主要功能同样只是使人联想起一些非常复杂的非语言表征,而抽象概念的意义在于后者,而不在于那些语词及语句。

当然,当复杂的人类语言产生之后,它对提高人类表征世界的能力的确起到了很大的作用。一段语言描述能够将一系列视觉想象等非语言表征组合、串联起来,构成一个更复杂的表征。这也就是讲一个复杂的、包含许多场景的故事时语言所起的作用。这里,语言是将一系列非语言表征组合、串联起来的线。这样一条线是必要的,但认为这样一条线本身就能表征世界,那就是误会了。不过,用语言线条可以编织一个很复杂的网络,将大脑中的大量非语言表征包括视觉表征串起来,构成一个很复杂的表征。特别是书写文字被发明以后,人们可以把这种由语言线条织成的网络保存下来,而且不断地组合、扩大,成为了今天人类表征世界的整个知识体系。这里语言确实起到了非常重要的作用。但在这里,语词序列依旧是将视觉表征等包含更多信息的非语言表征串联起来的线,虽然由这些线织成的网自身也已经很复杂,因此使得人们误以为是语言自身在描绘、表征世界。

许多人已经指出,我们的语言的一个特征是具有系统性和组合性(systematicity and compositionality)。这指的是,语言中的词项可以依规则任意组合,构成潜在地无穷多的有意义的句子,而且我们一旦掌握了这种规则,也就能理解潜在地无穷多的句子。比如,你能理解“约翰爱玛丽”也就能理解“玛丽爱约翰”,以及“约翰爱玛丽,但玛丽爱汤姆”等等。哲学家福多(Fodor)提出,我们大脑中的思想也应该具有系统性和组合性,因为我们也能思考潜在地无穷多的思想。由此他试图论证,人类大脑中应该有类似于自然语言的所谓思想语言(Language of Thought),而人的思想就是由思想语言符号构成的语句(cf.Fodor and Lepore2002)③。这是由大脑中的表征系统应该具有系统性和组合性以及语言确实具有系统性和组合性这两点出发,试图得出大脑中的表征系统应该类似于语言。这个论证的错误是没有考虑到多维的表征系统同样可以有系统性和组合性。由表征系统应该具有系统性和组合性这一合理前提出发,不能得出表征系统必须是一维的语言符号系统。事实上,普通的三维物体也可以被拆解成部分又重新拼装成新的物体。例如,桌子、椅子等可以拆解成部分然后重新拼装成新的物体。但这是在三维空间中依三维结构的组合,不是一维的线性组合。也就是说,具有系统性和组合性的东西本身可以是多维的,不必是一维的。

更具体地说,我们的语言的系统性和组合性的基础其实是我们的知觉想象能力的系统性和组合性。你能想象约翰爱玛丽的种种场景,也就能想象玛丽爱约翰的种种场景,以及约翰爱玛丽但玛丽爱汤姆的种种场景。如果不能将知觉想象组合,我们也不可能理解语词的组合。比如,当我们试图理解一个描写大场面的文本的时候,我们事实上是依靠我们对视觉想象的组合能力,将所读到的文字引发的一系列视觉想象组合起来,由此才能得到对整个大场景的理解。缺了这种对视觉想象的多维的组合能力,一个人就无法理解那些描写大场景的文本。也就是说,语言的系统性和组合性其实是视觉表征等非语言表征的系统性和组合性的后果。

然后更进一步,假设如前面所设想的,大脑中是用物体的缩微模型来表征物体,想象物体就是在大脑中构造缩微模型。那么,大脑的知觉想象能力的系统性和组合性其实在于这些缩微模型的系统性和组合性,即缩微模型可以被拆解然后重新拼装。事实上,人的视觉想象的组合方式要比一维语言的组合方式复杂得多。你能将想象中的一个四维的物体或场景以许多种方式分割成部分,而对于一个一维的符号串,你只能将它在其中某一点一分为二。你能想象两个四维物体,就能想象它们在四维时空中以多种形式组合、互动,包括可能是动态的碰撞、嵌入、包围、缠绕等等。你能想象两个场景,就能想象它们以先后相续、并行或交织等多种方式来组合成更大的场景。而对于一维语言,系统性和组合性仅仅在于简单的分割和重新作一维的拼接。

所以,语言的确具有系统性和组合性这些功能性特征,但语言的这些功能性特征的基础是大脑中的多维的表征系统的系统性与组合性。我们不必像福多那样,认为大脑是在使用一维的思想语言,也不必认为日常语言的系统性与组合性就足以使日常语言自身可以表征世界。

另一方面,人类语言之所以是一维的语言并非必然,而是具有生物偶然性的。人类是靠声带发音来传递信息,而声音是一维的。这就是人类语言一维性的原因。人类语言的一维性是依赖于人类靠声音交流这个偶然的生物特征。这意味着,语言并非必然是一维的,多维语言也是可设想的,而且将比一维语言更适于表征世界(也具有更复杂的系统性和组合性)

比如,我们可以想象这样一种外星人,他们没有发音的声带,但他们进化出了一种人类不具有的能力:他们的眼睛像电影放映机,可以像放映全息立体电影一样将他们脑子里的四维视觉想象直接放映出来,其他人通过看这样的全息立体电影就可以看到自己的视觉想象。他们是这样传递他们大脑中的信息。因此,这种外星人的语言就是四维的、视觉的、图像的语言,而非一维的、听觉的、声音的语言。他们对别人讲一个故事的时候,不是用一维的声音符号串去激发别人的视觉想象等非语言表征,而是直接向别人放映全息立体电影。

这样的图像语言也有系统性和组合性,而且有比声音语言更复杂丰富的系统性和组合性,因为他们可以将放映出来的四维图像以多种方式分割与重新组合。这种视觉语言同样可以表达抽象概念,也可以有语言约定。一方面,一维语言可看作这样的四维图像语言的一个极简单的子语言。你可以放映四维图像,当然也可以放映一维的符号串。因此一维语言所具有的丰富性及表征能力,四维图像语言都会有,包括一维语言中抽象名词具有的、使人联想起大量非语言表征作为抽象概念的意义这种能力。而且,四维图像语言可以有更复杂、丰富的表达抽象概念的方式。比如,在四维图像语言中,你可以用像抽象画、抽象雕塑、甚至动态抽象雕塑那样的四维图像表达抽象概念,而且这些表征单元之间可以以动态碰撞、嵌入、包围、缠绕等等无尽的方式组合,以表达更复杂的抽象概念。可以想象,不论是表征具体事物还是表达抽象概念,四维图像语言都将远远优于一维语言。由此也可以反过来得出,我们的一维声音、文字语言并不那么适于表征世界,其功能更多地是传递人类大脑中的表征。

更进一步,甚至作为大脑之间交流信息的工具的语言本身也不是绝对必需的。比如,按科幻小说《三体》中的设想,一个三体人可以直接感知另一个三体人大脑中的东西,不需要我们的语言这种传递媒介。机器人其实也不需要传递机器人大脑中的表征的另外一种语言,因为一个机器人可以通过无线网络将自己大脑中的整个内部表征直接复制给另一个机器人,不需要将大脑中的表征先转化为一种语言再传递给另一个机器人,更不需要先转化为一种一维的声音、文字语言。

这些都应该被理解为思想实验,只是在设想一些可能的事物与情境。但这些应该有助于澄清人类语言的真正功能与地位。综合起来,由于生物偶然性,人类的语言是一维声音符号系统,它自身不适于记录四维事物的时空结构信息,不适于表征世界。有理由相信我们大脑中的表征系统是一个多维的表征系统,它也具有系统性和组合性。我们的一维声音、文字语言的首要功能是在大脑之间传递大脑中的视觉表征等非语言表征,而不是用一维符号序列来表征世界。对于能够认识世界、具有高级智能的生物(或机器人)来说,作为交流信息的手段的语言甚至不是绝对必需的。这些加在一起应该能够说明,人类语言在人类认知活动中并没有一些20世纪分析哲学家所想象的那么重要的作用与地位。

五、分析哲学中的语言崇拜

20世纪分析哲学对语言的特别关注可以追溯到弗雷格在19世纪末发明现代数理逻辑这一事件。弗雷格的目的是为算术奠定严密的逻辑基础,为此他发明了现代逻辑语言。就其哲学目的来说,弗雷格的逻辑主义没有成功,但就用一种严格、精确的语言表达我们的算术知识这一点,弗雷格是完全成功了。然后,由于罗素、维特根斯坦、希尔伯特等人的推进,人们开始相信,数理逻辑的语言原则上可以完全地表达所有数学知识。就表达关于自然数、实数的数学理论来说,这应该是很自然的,因为数字、小数展开式这些事物本质上是一维的。对于几何,事实上,数学家们在构造证明的时候依靠的是空间直觉而不是语言中的逻辑推理。当然,我们还是认为,原则上几何学也可以在数理逻辑的语言中形式化,但这已经是很大的“原则上”。一些哲学家们则进一步设想,语言原则上可以完备地描述整个世界,表达我们关于世界的所有知识。这当然是更大的“原则上”。的确,只要设立时空坐标,我们“原则上”可以用一维的语言描述世界上的一切,但这种“原则上”可行的做法与人类实际上如何表征、认识世界已经相差太远了。

也许是因为哲学家们往往只关心原则上可以怎样,不关心实际上发生了什么,或怎么做才是最有效的,语言的这种“原则上”的表征能力使得一些哲学家(比如卡尔纳普、奎因、达米特等)很自然地就认为,语言自身就包括我们所有的表征、概念、思想,就包括我们所具有的一切知识,因此哲学研究可以专注于分析语言。大脑或心灵中非语言的东西渐渐被忘却。这些哲学家进而认为,通过分析语言如何具有意义就能说清我们人类如何认识世界,甚至能回答一些关于世界的本体论问题。对语言的这种关注最后演变成为一个关于语言的“主体—语言—世界”三分图景。语言不再仅仅是用于大脑之间传递信息的、简单的、能引发大脑中的丰富联想的一维声音文字信号,而是成了心灵与整个世界之间的媒介,隔离心灵与世界的幕布,以及心灵不得不通过其“看”整个世界的有色眼镜。

这个图景之不真实,通过想象不需要语言的三体人及机器人(比如变形金刚)就不难看出。对于不需要语言的智能生物或机器人,如果还有所谓“看世界的有色眼镜”,那肯定不能是我们目前所说的汉语、英语或一阶逻辑语言这种语言。也许它是三体人或机器人大脑中的某种表征系统。但如果是这样,对于我们人类,所谓“看世界的有色眼镜”也应该是我们大脑中的多维表征系统而不是我们的语言。类似地,说“我的语言的界限就是我的世界的界限”,其实等于说“这个大脑与那个大脑之间传递信息的声波信号的界限就是世界的界限”,这显然荒谬,而对于不需要语言的智能生物或机器人,这个说法就更没有意义了。语言只是相对简单的、通过联想引发大脑中丰富的非语言表征来传递信息的一维声音和文字符号系统。它不是大脑与世界之间的媒介。理解认知应该主要是在于理解大脑如何存储、处理信息,包括如何构造大脑中对世界的多维表征,而不是主要在于理解大脑之间如何用声音、文字交流信息。语言的意义是在于大脑之外的声音、文字符号与大脑中的那些多维表征之间的关联。由分析语言如何获得意义去探讨世界上有什么存在,等于是由分析人类声带振动产生的声波模式如何与人类大脑中的多维表征相关联,去探讨世界上其他地方有什么事物存在。这也是荒谬的。那种“主体—语言—世界”的三分图景是一幅关于语言在人类认知活动中的作用与地位的极为扭曲的图画。

对语言的作用的过分夸大可能还有另一方面的原因。20世纪以前的主流哲学传统,不论是经验论、唯理论、德国观念论,都是在谈论看不见、摸不着的心理性或精神性的观念(idea)、概念等等,背后是二元论、观念论或唯心论的世界观。进入20世纪以来,受科学尤其是进化论的影响,很多哲学家相信我们应该放弃二元论、观念论及唯心论,而接受自然主义的甚至物理主义的世界观。比如,卡尔纳普和奎因都接受某种形式的物理主义。但直到20世纪中叶以前,人们还完全不能想象大脑神经元网络如何工作,如何能在大脑中产生视觉等知觉表征,如何能有智能。而另一方面,语言多少显得是有物质基础的,是看得见、摸得着的可以用科学方法描述的东西,不像传统哲学中的观念、概念等。而且,图灵机模型使得我们可以想象一个机器如何能够处理语言符号,能够进行逻辑推理。人们甚至实际地制造出了能够处理语言符号和进行逻辑推理的计算机。因此,语言自然地成了这些哲学家(以及尝试模拟智能的人工智能研究者)专注的对象,他们以此回避他们对之完全缺乏认识的大脑神经元网络及其中的多维表征。这里,夸大语言的作用正是因为对真正起作用的东西即大脑中的表征的无知。这是可以理解的现象。

但今天科学家们已经开始认真探讨大脑神经元网络如何工作。计算视觉理论已经对大脑神经元网络如何构造视觉表征提出一些模型,虽然还只是一些很粗略的设想(cf.Goldstein2010Frisby and Stone2010)。人工智能研究中的人工神经元网络进路已经开始尝试模拟神经元网络如何以不同于一维符号语言的语句的方式记录:关于世界的知识,以不同于进行推理的方式行使智能。因此我们没有必要再回避大脑或心灵中的那些非语言的东西。同时,我们还应该对语言还其本来面目,拒绝过分夸大语言的作用的那种“主体—语言—世界”三分图景。这不是要完全否认分析语言对于澄清我们的知识体系的价值。既然我们是用语言作为线条编织一个复杂的网络,将我们大脑中非语言的多维:表征串起来,构成我们对世界的知识体系,语言所编成的网络至少显示了我们的知识体系的某种粗线条的结构,因此分析语言肯定有助于澄清我们的知识体系。这只是强调,我们不应该忽视我们大脑中非语言的表征,而且,要真正澄清语言如何获得意义正是需要正视那些非语言的表征。

原文曾在智能与心灵学术研讨会(2016421日,中国人民大学哲学院)及北京大学哲学系逻辑前沿讨论班上报告过,作者感谢参会者的批评及建议。

【注释】

①见拉塞尔和诺维格(Russell and Norvig2010)著作的第一章中对人工智能发展历史的简要概述。这本很流行的人工智能教科书只用很小的篇幅讨论人工神经元网络学习。卡特(Carter2007)及加森(Garson2015)对符号计算进路及人工神经元网络进路(又称联结主义)的介绍,适于哲学学者阅读。

②最新的综述可见古德费洛、本希奥和考维尔(GoodfellowBengio and Courville2016)著作的第一章。

③福多一直是人工神经元网络进路的批评者。

【参考文献】

[1]博登,2001,《人工智能哲学》,刘西瑞、王汉琦译,上海译文出版社。

[2]Carter,M.,2007,Minds and Computers:An Introduction to the Philosophy of Artificial Intelligence,Edinburgh University Press.

[3]Fantl,J.,2012,“Knowledge How”,in E.N.Zalta ed.,Stanford Encyclopedia of Philosophy,http://plato.stanford.edu/entries/knowledge-how/.

[4]Frisby,J.P.and J.V.Stone,2010,Seeing:The Computational Approach to Biological Vision,2nd ed.,Cambridge,The MIT Press.

[5]Fodor,J.and E.Lepore,2002,The Compositionality Papers,Oxford University Press.

[6]Garson,J.,2015,“Connectionism”,in E.N.Zalta ed.,Stanford Encyclopedia of Philosophy,http://plato.stanford.edu/entries/connectionism/.

[7]Goldstein,E.B.,2010,Sensation and Perception,8th ed.,Cengage Learning.

[8]Goodfellow,I.,Y.Bengio and A.Courville,2016,Deep Learning,The MIT Press,http://www.deeplearningbook.org/.

[9]Kosslyn,S.M.,W.L.Thompson and G.Ganis,2006,The Case for Mental Imagery,Oxford University Press.

[10]Russell,S.J.and P.Norvig,2010,Artificial Intelligence:A Modern Approach,Prentice Hall.

(原载《世界哲学》2016年第5)