CIIS 2019 演讲实录丨于剑：从图灵测试谈起

gaoliuliu

2019-11-05

10月26日-27日，由陕西省委网信办、陕西省工业和信息化厅、陕西省科学技术厅指导，中国人工智能学会主办，西安市委网信办、西安市科学技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”--西安举办。在27日全国高校人工智能学院院长/系主任论坛上CAAI机器学习专委会副主任、北京交通大学人工智能研究院常务副院长、教授于剑为我们带来了题为“从图灵测试谈起”的精彩演讲。

于剑 CAAI机器学习专委会副主任、北京交通大学人工智能研究院常务副院长、教授

以下是于剑的演讲实录：

谈人工智能避不开图灵测试。可以从多个角度分析图灵测试，本报告《从图灵测试谈起》将从三个层次论述图灵测试。

一、何为图灵测试

最原始的图灵测试中被模拟的对象是女人，看看机器是否能够模拟一个女人，如果辨识者不能区分谁是机器谁是女人，即通过测试。后来，被模拟的对象改为人，这就是常见的图灵测试。很多人认为这是现代人工智能的起源，并称图灵为人工智能之父。甚至，在1991年有人专门设计了一个奖，鼓励人们发明通过图灵测试的程序。到现在为止这个比赛每年都还在举行，还没有人获得最后的大奖。应该说，对比赛的批评也非常多，为什么会有批评？一会儿我会讲。

图灵测试能不能通过，或者通过的后果到底是什么？哲学家赛尔提出了一个思想实验“中文屋实验”，对此做出了一个极有意思的回答。赛尔明确指出，即使完全通过了图灵测试，实现的也只是人工智能，而不是人的智能。图灵认为，通过图灵测试，就辨别不出是人还是机器。中文屋实验却说，即使通过了图灵测试，也还不是人的智能。应该说这个指责是非常严厉的。这个指责在我看来大体也是成立的，我以前曾经讲过很多次，这里就不再多说了，也有很多这样的文章可以去看。

为什么通过了图灵测试也不算是人的智能呢？原因很简单，只是在符号上通过的测试，并不针对现实的意义进行标定。仅仅符号做对了，现实中不对的情形是非常多的。中国很早就有这样的故事，纸上谈兵。纸上谈兵的时候都对，不一定在现实中就一定能赢得战争。所以在1989年有人提出了完全的图灵测试，图灵测试一般叫做2T（Turing Test），而完全的图灵测试是3T(Total Turing Test)。在2T的时候要判断出哪个是机器、哪个是人，辨识者和实验对象是隔离的，彼此不能直接见面。而完全的图灵测试中，这个隔板被拆掉。有一个中国的故事可以用来说明3T图灵测试，就是著名的“真假美猴王”故事。这个故事讲的假美猴王，就通过了3T测试。至少从人工智能的角度看，是这样的。不知道哪个美猴王是真的，哪个是假的，谁都判断不出来。人们所谓的对于人工智能的恐惧，追踪到科学的文献，就是3T测试，中国人很早就想象出来了。

二、图灵测试中的预设

图灵测试假设了非常多的事实，但是这些假设在现实中并不一定成立。要知道图灵测试假设了什么，一定要看看图灵的生平。图灵生于1912年，1954年去世，这是个非常要害的时间，每个人都脱离不开时代的限制。他于1950年提出了图灵测试，维特根斯坦的《哲学研究》于1953年出版。现有的资料，没有显示图灵读过《哲学研究》，从时间段上看，图灵也没有机会读《哲学研究》。实际上，人们对于《哲学研究》的深入了解，特别是在哲学界以外，已经是上个世纪70年代以后。具体到人工智能界，了解《哲学研究》就更晚了。这是一个非常重要的事实。

在《哲学研究》以前，人们认为概念存在经典定义。一般情形下，如果某个概念没有经典定义，那么只能说明研究还不够深入，需要继续研究。在《哲学研究》以前，人们普遍相信概念存在经典定义，在这其中，希尔伯特的话最为经典最具代表性，，“我们必将发现，我们终将发现”。也就是说，对任何一个概念的经典定义，我们是必将发现，我们终将发现。

那什么是概念的经典表示呢？概念的经典表示有三部分组成。一是符号表示。任何一个概念都要有个名字，这就是概念的符号表示。二是内涵表示。就是用来定义概念的命题。如果是计算机系的学生，肯定知道。这个命题的概念，人们已经研究了2500多年，真正定型是在20世纪初，即命题是能判断真假的陈述句。三是外延表示，就是经典集合。举一个简单的例子，素数这个概念。其符号表示在中文是“素数”这两个字；其内涵表示是如下命题：只能够被1和自身整除的自然数。其外延表示是如下集合：｛1、2、3、5、7、11，13、17、19、23、29、……｝。如果任何概念都能够给出如上的经典表示，人工智能很多情况下就不那么难了。但是，得到概念的经典表示有时是非常困难的。

在《哲学研究》以后，一般的常识是认为概念不一定存在经典表示。维特根斯坦写了《哲学研究》那么一本书，号称西方哲学史上的天才，原因之一是因为他否定了我们延续了2500多年，一直这么默认假设的，概念存在经典表示这样一个观念。在《哲学研究》后，对于概念是否存在经典表示，这本身需要研究，不是所有的概念都不存在经典表示，也不是所有的概念都存在经典表示，存在不存在经典表示，每个概念需要单独研究。《哲学研究》中有个结论，日常生活中使用的大多数概念不存在经典表示。有了这些知识之后，再来讲图灵测试，就会发现味道完全不一样了。图灵测试原来的名称是模拟游戏，它使用的概念都是经典概念，那时候还没有人对概念存在不存在经典表示这个事情表示疑问。即使维特根斯坦出了《哲学研究》这本书以后，人们在此问题上达成共识也是上世纪70年代、80年代以后的事情。所以图灵测试中假设概念都有经典表示。图灵测试中最重要的概念有两个，一个是智能，一个是人。这两个存在不存在经典概念呢？

什么是智能？很多人给出了很多的定义。有很多的参考资料，这儿就不多说了。现在的共识是，智能无统一的定义，也就是智能这个概念没有经典表示。这个后遗症非常严重。导致只能设计侧面的实验比如图灵测试来判断是否具有智能。同样的，人在图灵测试中扮演了两个非常重要的角色，人在图灵测试中，不仅是被模仿对象，也是判决者。所以人这个概念需要明确定义。按照图灵生活时代的限制，“人“这个概念一定是存在经典表示的。实际情况如何呢？

历史上，很多哲人对于这个问题进行了研究。古希腊的普罗泰戈拉曾经说：人是万物的尺度，是存在的事物存在的尺度，也是不存在的事物不存在的尺度。对这个有很多批判，有各个角度，比如柏拉图的《泰阿泰德》。柏拉图自己也给出过“人”这个概念的一个定义。柏拉图认为：人是没有羽毛的两脚直立的动物。他的学生亚里士多德在听课的第二天，提着一只拔光了毛的鸡，对他的老师说，这就是人啊！所以这个定义只存活了一天，成为一个流传至今的段子。中国古代，对于如何定义人也有说法。《春秋谷梁传》中说：“人之所以为人者，言也”。而法国思想家拉梅特里说《人是机器》，这个我并不赞成。法国思想家帕斯卡说：“人是一根会思想的芦苇”，尼采说：“人是一条不洁的河”，这些更多是文学上的比喻，不是定义。马克思说：“人是一切社会关系的总和”。很多人认为马克思这个定义好，但这好像也不是人的严格定义，因为怎么定义社会关系呢？要定义社会关系，又要用人来定义，这是循环定义。循环定义，不为定义。卡西尔也是一位大哲学家，研究了一辈子如何来定义人，他说我们应当把人定义为符号的动物，这个也没有得到大家完全的认可。到现在为止，找不到人的统一定义，“人”这个概念没有经典定义。这导致图灵测试中的人没有了统一的标准或者一致的判据。因此，图灵测试不具有可重复性。

严格意义上，图灵测试有三个特点，第一，问题不限定。不限定任何的问题，任何问题都可以问，模仿内容或者任务是开放的，没有不可问的问题。第二，被模拟的人不限定。没有说模拟什么样的人，如果说模拟一个具体的人容易一些，而只说模拟一个抽象的人就比较麻烦，模拟具体的某某都代表不了人，只是人的一个样本。第三，语言不限定。在这里面没有说一定要是英语，如果你问一个泰国人，他是说泰语的，我用汉语来问，你说这个测试有意义吗？所以图灵测试是开放测试，工程上要实现，一定要封闭实现，必须要有限制才能实现，图灵测试只是思想实验，不能工程实现。实际上，设计一个好的思想试验也是有非常大的贡献，在此并不是要否定图灵的天才贡献。

一些人认为这是可操作实验，也有很多人认为这就是个科学小说。我们认为图灵测试就是一个思想实验，属于思想实验的范畴，

三、图灵测试的后果

图灵测试不是简单的概念，它的优点非常明显，避免了智能的内涵式定义和判定难题，将研究智能的重点放在智能的外在功能性表现，使得智能从工程上看似乎是可实现和判断。原始的图灵测试我们称为开式图灵测试，或者简称图灵测试。封闭条件下实现的图灵测试，我们称之为闭式图灵测试。模拟某个人，比如模拟奥巴马可以通过，但它带来的问题是模拟某个人是否合法、是否合乎伦理，人一旦定了以后语言也定了，任务也定了，像我懂得的东西实在太少，我也只会说汉语，英语说的磕磕巴巴，模拟我这个人即使通过了测试，也不是原始的图灵测试，而是闭式图灵测试。通过闭式图灵测试也是一项了不起的成就。

到目前为止，对于很多具体的任务来说，闭式图灵测试已经成功。闭式图灵测试的成功，已经给人们生活带来很多的便利。但是，通过闭式图灵测试，是否也会有重大的危害呢？

在现在生活中，闭式图灵测试比如机器写作、图像合成、视频合成、语音合成技术已经面向大众，鉴定数据真假已经成为目前亟待解决的问题。据说，目前全球互联网上只有不到60%的流量，是由真实的人类产生的。网上的很多内容也是假的。曾经的虚构文章《一个出身寒门的状元之死》，曾经的Bosstown dynamics的假机器人视频都曾经在微信上刷屏。日常生活中我们有美图秀秀，引起严重后果的有通俄门。这些事情已经引起了巨大的反响。现在Facebook发起Deepfake检测挑战赛，悬赏1000万美金，以AI技术打假AI，。

说清楚了什么是图灵测试，图灵测试的预设和后果以后，就可以理清人工智能的一些问题。比如强人工智能，人类级人工智能，通用人工智能，超级人工智能这些现在很火的概念是否成立。虽然这些概念都是人工智能的先驱提出的，但是实际上，并没有实现的可能。原因也很简单，所有的上述人工智能至少要求通过原始的图灵测试，甚至要通过3T。比如超级人工智能，必须通过3T。现在2T都不可能实现，更别说3T。因此，强人工智能，人类级人工智能，通用人工智能，超级人工智能在工程意义下没有实现的可能。虽然只能实现即使闭式图灵测试，其造成的后果也不见得不严重。

最后小结一下，图灵测试是思想实验，不是工程实验。没有强弱人工智能，只有人工智能。因为强人工智能、人类级人工智能、通用人工智能、超级人工智能都没有工程实现的可能。以上是本人的粗浅观点，欢迎批评指正。我的报告到此结束，谢谢大家听我的报告！

（本报告根据速记整理）

CAAI原创丨作者于剑

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会

人工智能图灵图灵测试计算机科学

安科网

CIIS 2019 演讲实录丨于剑：从图灵测试谈起

gaoliuliu

gaoliuliu

相关推荐

当教练、做监工…… 人机协同下的AI更懂你

如何通过7个步骤构建机器学习模型

Facebook借助人工智能对内容审核排序

人脸识别技术发展现状及未来发展趋势

零基础也能看懂的人工智能教程

关于机器学习管道需要了解什么?

关于人工智能的解读，看这一篇就够了

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

人工智能与制造业融合有多难？我国人工智能人才缺口达30万

华人研究团队推出AI“讽刺”检测模型，准确率达86%

程序员用AI算法生成了3000个新的宝可梦

决策智能：方兴未艾的人工智能新方向

如何认识人工智能对未来经济社会的影响

AI＋智慧交通实现整体升级和协同

5G技术与人工智能的智能结合

人工智能助力教育均衡发展

为什么所有的机器学习模型有90％从没有投入生产

2020年人工智能改变了我们生活的哪些方面？

激发校园创新火花 2020 DIGIX全球校园AI算法精英大赛圆满收官

全面解读谷歌云人工智能如何为机器学习提供帮助

gaoliuliu