其次请读者注意人工智能哲学和弱人工智能的算法研究间的差别,然后上正文:
1,我认为没有必要拘泥于这测试的原始形式,原始形式的图灵测试要求测试者用设备和看不见的陌生对象交谈本身就会使测试者无意识地提高警惕,但这种警惕在我们生活中用来判断别人是否具有智能时并不存在。这点是有违图灵测试背后的无差别原则的。
所谓无差别原则,就是“判断机器有没有智能的标准应该和判断别人有没有智能的标准一样”。如果测试者怀疑机器不具有智能,那么,在同样的情境下,他其实也应该怀疑自己以外的所有人不具有智能。因此,为了使这测试体现出更多原本的精神,应该尽可能多地排除所有让测试者先入为主地怀疑对象不是同类的因素,特别地,这包括测试者觉得“自己在对机器做图灵测试”的意识,因为在生活中测试者判断自己的亲朋好友具有智能的时候显然是没有“我在测试什么”的意识的。
反过来,原始形式中仅依赖于英语会话这点也是有局限的,例如在现实生活中测试者判断新认识的朋友是“有智能的同类”时,是在友好的氛围下透过各种包含肢体,表情,语言等要素的活动进行相处而非仅仅在分隔的房间进行会话。当然,不可否认,测试者先入为主认为“对方是人类”这点大幅加快了这种进程,但这点是自然生活的一部分。因此,理想的测试应该让测试者同样先入为主地认为对方是人类,而这种先入为主的判据很大程度来自对方的人形外观。
针对图灵测试的批评中有一类是自然语言对话/短时间的交谈/测试者本身的资格等原因导致其不足以作为智能的判据,我以为这其实是对测试的实现方式的批评,而非图灵测试本身的批评。这属于技术问题而非基础问题。
一种理想的完全图灵测试可以是:在现实中或虚拟环境中(测试者事先并不知情)举办热闹的派对,AI以人形外观混入(无意识地)担当了测试者的客人中与其相处。鉴于现实中测试者与他人相处的环境并不唯一,测试的情境也可多种多样和分次分批进行。这样的方案会大幅提高经济成本和技术要求(额外的计算机视觉/虚拟现实/机器人学等),但却免除了上面提及的问题,并且在额外增加的项目中看不到新的原理性障碍(技术性障碍还是不低)。因此,我们下面将直接假设所讨论的图灵测试是这种故意误导测试者相信对象是人类的完全图灵测试,这样,一类针对图灵测试的诘难就消灭了。
2,一类更有说服力的反驳是“机器只是成功模仿了人类的言行,本身不会思考”,这种反驳不属于上面说的诘难,它也可以用来针对改良版的完全图灵测试。这类反驳中较弱的版本是直接主张“机器没有主观能动性/自由意志/自我意识(
最后一个词能被替换为各种说话人自己也不能给出精确定义的哲学概念)”,较强的版本是同样利用思想实验来避免强行定义根本不清楚的概念的问题,例如
中文屋这种反驳不能说是错的,它的失败在于它与机器智能根本不相干。它至多只能说明存在机器本身其实不会思考的可能性,但是没有办法证明它们一定不能思考(庄子以“子非我”对惠子的“子非鱼”)。并且,它的根本性缺陷是,论证里根本就没有用到“对象是机器”这一要素,只是主张者为自己的偏见所蒙蔽,认为自己说的只是机器而已。这恰恰落入无差别原则的陷阱,因为该原则背后的逻辑是:其实即使是强AI的反对者自己也不能百分百地断定“别人”(例如:自己的亲朋好友)确实有智能。
这类观点的主张者试图想证明:做出像人类的言行也不能代表一定具有人类的智能。但实际上,这些主张者自己在生活中判定刚认识的“人形物体”是一个值得交往的智能同类时,也只能根据对方的言行。中文屋之类思想实验的设计者之所以可以肯定对方只是可以模仿人类的机器,乃是因为开着旁观者视角/上帝视角,事先认定对方就是异类而已。这正是为什么上面的改良图灵测试特别强调:不能让测试者怀有“我在测试机器”的念头的缘故,测试者自己的偏见影响实验的有效性,这恰恰是应该排除的。
正因如此,这类思想实验根本与机器毫无关系。将论证里的“机器”替换为“黑人”丝毫没有违和感。按照同样的逻辑,所有的黑人仅仅是“成功(而且还不太成功)地模仿了白人和黄种人的言行,本身不会思考”,黑人就像中文屋里的Searle不懂中文一样其实没有人性,黑人其实没有主观能动性/自由意志/自我意识等等类似王八之气的形而上的莫名事物,所以黑人没有人权。如果Searle自己不是黑人,那么显然,他除非把自己关于机器的论断吃回去,就不能否定这论点。如果Searle自己是黑人,那就更简单了,我直接主张他只是按照编好的程序在念而没有自由意志,毫无采信价值。
幸好我不在米国,否则我这段就属于典型的种族歧视言论了。不过不用奇怪,把此地的黑人换成基督徒/穆斯林/佛教徒,整个逻辑也无需修改,得,咱把宗教人士也得罪了。但是这在别处明显会被看成是傲慢与偏见的观点,因为放在强加了“对方是机器”为前提的语境下就变成了颇有创见的说法,这真是滑稽。
另外,在这里强调机器是人造的这点区别毫无用处,它并不比任何形式的血统出身论有更多的说服力。而从塑造我们的人格非常地需要社会环境中他人的作用这点来看,我们,作为独立意识,其实也是“人造”的。要无端歧视一类人或事物,很容易找出足够多的理由(“非我族类,其心必异!”),但终究不过是歧视而已。
在心理学史上,行为主义学派也受到过类似的质疑,“忽视内在动机的存在,忽视内省方法是不恰当的”。斯金纳对这点有一个颇具启发性的反驳,那就是:“我们真的知道自己的内在动机是什么吗?”。在这里,情况也是类似的,主张者自以为找到了人类特有的超越机器的东西,但其实自己根本就不能真的确认它真的在自己的同类上存在,他们只能采取事后诸葛的双重标准,知道是人类就宽松,知道是机器就严厉,仅此而已。
总之,这类论证表面上诘难了图灵测试,但却被其背后的无差别原则彻底击败。在我们的完全图灵测试中,如果测试者觉得现实中亲朋好友是模仿活人的僵尸的几率可以忽略,他同样也应该判断成功通过测试的机器不具有智能的几率可以忽略。不然这个测试者就只能透过成为偏激的唯我论者来避免自相矛盾,而这样的人显然不该被认为具有代表人类进行测试的资格的。
注意我们只是驳倒了这种论证,并未预言完全的强AI一定就能实现。有可能确实因为其他的原因无法实现强AI,但是这也和这类论证没什么关系,毕竟它除了身为人类的莫名其妙的优越感以外,什么都不是。它给我们提出的警告其实是:要注意避免测试者持有这样的偏见的情形。
作为反面例子,彭罗斯在《皇帝的新脑》里对强AI的质疑就比中文屋这样的论证有道理多了。因为彭罗斯的论证用到了“对象是机器”的要素,准确来讲,他对机器的定义是“不强于图灵机的计算设备”。彭罗斯主张波函数坍缩和人的意识都是不能被图灵机完全模拟的过程(一般简称不可计算的),所以人具有某种高于机器智能的优越性,例如,人可以避开不完备性和停机问题设下的限制(“看出”不可证的命题的正确性或者断言某个程序的运行结果)。彭罗斯的论证就至少不是不相关的,它仅仅是错误的,当然,关于为什么彭罗斯的观点是错的,就需要另外一篇文章了。
3,第三类反驳需要一种更加开放的智能观点:智力不是人的专有属性,如图飞行能力不是鸟的专有属性一样。用谷歌研究主管彼得·诺威格的话来说:“航空工程的目标不是把飞行器造得飞起来像鸽子,能骗过其他鸽子”。这类反驳指出图灵测试所测的并非机器的智能,而是机器像人的程度。准确来说,仅仅是与“测试者熟悉的一般人”的类似程度。但如果机器的智能远超一般人,它也可能无法通过测试。这情况有点类似于教师欣赏好学生,但反感有个性的天才的现象。
需要注意的是:并没有任何理由说明人类不能在造出智力接近自身的AI前先造出智能过强的AI,这正如没有理由说明生物进化不能在博尔特之前产生出速度更快的猎豹一样。
在现实中也存在着很多举止谈吐本来就异于常人的怪胎,他们绝非没有智能,恰好相反,其中个别还具有超凡的智能。大智若愚的思想家,面对持有上述的机器歧视的测试者也可能通不过图灵测试。这类人特别有助于改良图灵测试的对照组实验,若他们作为真人被多次误认为AI,就有理由怀疑本次测试的效度。
当然,超智能体和性情古怪的天才作为反例可能太过特殊,但一般人对他人的认识总受到视野的限制。更加一般的质疑是这样的:如何保证测试者不会因为与智能无关的差别排除智能机器?
这个质疑比起前两类的优势还在于:它抓住了图灵测试背后无差别原则的要害。无差别原则潜在地假设“他人”没有内部差别,然而人与人之间千差万别。认为图灵测试中的测试者本身也需要相当的素质的批评也可归为此类(在某种意义上说,对拜火教教徒,火焰已经通过了图灵测试)。
不过,这质疑也有自己的困难,它需要预设有几乎独立于具体特定的人和环境的普适智力概念存在。若不是如此,则总可以指定该特定环境进行测试。心理学中的传统智商不足以作为合适的指标。Shane Legg与Marcus Hutter的
通用智力度量因其不含经验参量和完全形式化的特性,可能作为普适智力的理想表征。不过,由于实践中不得不用先决的压缩算法帮助近似计算这一度量,这等价于引入了经验成分,实践中这方法是否能取得比图灵测试更高的客观性是可疑的。