AI号外:谷歌 DeepMind AI 败了——在数学面前输给了高中生
来源:云头条
地址:https://mp.weixin.qq.com/s/_5Rc8gxK3fnhooH1H9VWmA
如今,新闻媒体界充斥着AI在从下围棋到解读磁共振影像(MRI)的诸多任务中完胜人类专家的报道。有人可能认为,智能机器处理数学起来应该很轻松――但数学仍然是AI相对未攻克的一个领域。DeepMind的新论文《分析神经模型的数学推理能力》让一个神经网络接受高中数学考试,结果让人大跌眼镜:AI考试不及格。
人类运用各种认知技能来解答简单的数学替换问题:
- 将字符解析为诸多实体,比如数字、算术运算符、变量(共同构成函数)和单词(确定问题)。
- 规划(比如,确定以正确的顺序合成的函数)。
- 使用子算法来组成函数(加法和乘法)。
- 利用工作记忆来存储中间值(比如组成h(f(x)))。
- 通常运用规则、转换、过程和公理等方面获得的知识。
DeepMind通过先收集由不同类型的数学问题组成的数据集来训练和测试神经模型。他们不是采用众包(crowd-sourcing)方法,而是合成数据集以生成大量的训练示例,以控制难度级别,并缩短训练时间。比如说,该团队使用一种“自由形式”的文本格式,确保可以在数据集当中容纳树形图或图形类问题。
该数据基于英国国立学校的数学课程(直至16岁),涵盖代数、算术、微积分、比较、测量、数字、操纵多项式和概率。
虽然以前有过使用神经网络驱动方法来处理数学的研究,但DeepMind将自己局限于一般的序列处理架构,以便为将来的比较提供最一般化的基准。该团队选择了LSTM(长短期记忆)和Transformer架构用于这次考试。
DeepMind在数学问题上测试了两个LSTM模型:简单LSTM(Simple LSTM),用问题数据加以训练,每次一个字符,使用独热编码(one-hot encoding);以及注意力LSTM(Attentional LSTM),表示常用神经机器翻译编码器/解码器架构,如下图所示。
与此同时,Transformer模型是一个序列到序列模型,它在机器翻译中获得了最出色的结果。其一般的问题解决逻辑如下所示。
研究人员观察到,简单LSTM、注意力LSTM和Transformer这三个模型在数学考试中的整体表现大致相同。然而结果证明,Transformer模型处理涉及以下的问题时更胜一筹:
- 用数量一样的参数进行更多的计算
- 拥有较浅的架构(拥有更好的梯度传播)
- 拥有顺序型的内部“存储器”,更容易处理数字序列之类的数字对象。
这些模型在包括40道问题的考试中的结果其正确率都在35%左右:
这在任何高中成绩单上都是不及格的分数。详细结果如下:
为什么人工智能无法答对高中数学题呢?
原来,最主要的原因是AI“看不懂”题目。DeepMind旗下的AI虽然已经拥有了极强的机器翻译能力,但依然抵不住数学问题的复杂性和语言多样性的压力。
对AI而言,数学符号和题目本身就很难理解,对人类而言,要解决数学问题,要应用到的不只有计算能力,还有各种各样的认知技能。比如理解题干,需要将文字或图标转换为算术运算符。
而对于依赖大量数据分析来寻求解决问题规律的AI而言,数学语言的复杂性是一座难以逾越的高山。
其次,AI“举一反三”的能力,也无法与人类一较高下。它只能处理一些内部存储的问题,无法超越已有的环境去理解新的东西。
而人类在解决数学问题时,会进行推理,从已知的公理中找到最佳策略,而在具体的运算过程中,必须利用工作记忆来完成运算。
据DeepMind研究人员总结,现阶段AI在推论的能力上,还不及人类。在解答问题时,人脑动用了多种认知能力,包括将符号分类、演算、运用工作记忆来储存中间值、还要运用学到的规则或定理等。
相反,AI则擅长模式比对、机器翻译和强化式学习,但弹性远不及人脑。它们不太能将事物推论到已有经验的环境外,更无法处理刻意乱输入的资讯。
不过,虽然目前AI还无法当数学老师,但他们已经称霸了相当多的领域。除了围棋以外,DeepMind旗下的AI又在游戏《星际争霸2》(StarCraft II)的测试赛中,5-0横扫世界顶尖职业选手。
牛旦教育编外音:
AI强项在于规则和条件,在于数学系穷举,条件达不到,模型不符合就容易错,是机械式的“死思考”。而人类强项除了创造性、跳跃性的抽象思维,更厉害的是场景化的关联思维和模糊思维,而且是生物性的“活思考”。从目前来看,人类思维活动处于引领地位,而AI,从属于人类,其价值在于工具性应用。