符号主义VS联结主义:鱼和熊掌如何兼得
随着联结主义技术(如神经网络)的广泛运用,其劲敌符号主义AI的战略互补性愈发凸显出来,主要适用于任务关键型应用,具有动态调试、可验证性、可解释性等特点。
每当有这样的两方旗鼓相当、针锋相对时,人们很快会选好阵营,为喜欢的一方摇旗呐喊,对另一方予以攻讦。一直以来,人工智能技术就分为两个阵营:符号主义AI与联结主义AI。由于近期的成功案例与媒体的大肆宣传,联结主义目前已大占上风。有人甚至散布虚假消息,称人们将不再关注传统AI研究与发展,停止对其注资。
实际上,符号主义与联结主义在人工智能领域都有自己的一席之地。人工智能算法中并没有一个杀手锏,能像欧洲传说里的银色子弹那样,让所有的技术难题似邪魔般触之即散,试图用同一种算法一劳永逸地解决问题不过是痴人说梦。尺有所短,寸有所长,对症下药,方为王道。
何为符号主义AI?
符号主义有时也被成为GOFAI(优秀的老式人工智能)。当然,这绝不是指该技术垂垂老矣,死气沉沉。符号主义更是一种就相关问题进行建模的经典手段,借由该模型来处理输入数据,以此求解。
符号主义技术的推广与发展呼声渐高。越来越多的人认识到,高风险决策领域对人工智能系统有需求,因此这些系统的行为要有可验证性与可解释性,而这恰恰是联结主义算法的短板。
基于符号主义的系统需要演绎归纳、逻辑推理,以及在特定模型下求解的搜索算法。这包括专家系统(通过规则与决策树从输入数据中推导出结论),约束求解器(在一些给定可能性中求解)和规划系统(从一些初始状态值中找到一系列动作来实现给定目标)。此外,该系统通常还包括一些能控制不确定性与风险的变量。
井字游戏中的极大极小博弈树
这种算法往往很复杂,可能是NP难题,或是更糟。因此在解决一些现实问题时,这些算法需要很大的搜索空间。而这意味着,除小范围人为限制的例子外,经典的盲目搜索穷举法是行不通的。因而,这一最不可能求解的途径被排除于搜索空间之外,或者说在很长的时间内都无人问津。
符号主义所涉甚广。分支定界算法适用于那些启发式算法无法解决的优化问题即约束满足问题。该算法用上界与下界把解空间分割成一个个分支,并在这些分支里找出可行解。局部搜索算法研究最终值的近似值,并不断对其修正,而在求值过程中有时要随机跳跃邻域来避免局部最优解。元启发式算法所涉甚广,其中进化算法会模拟自然界中的分布和协作机制,如自然选择与仿群行为。
启发式搜索算法用评价函数来判断目前状态和目标状态的差距,并且用估测的方式来求值,比起求具体值来这样更省力。松弛算法是一种与任务域无关的启发式算法,该算法不考虑一些给定的约束条件(或现实中可能存在的阻碍),以加快求值效率(该值处于一个更加松弛的约束范围),这一点值得注意。松弛算法具有指导作用,有助于系统在搜索过程中的各个决策点做出更多知情选择。优秀的启发式算法既具有容许性(不高估成本),又有信息性,它会求出最优解(如A^算法),但是,这样的启发式算法并非每次都行得通。对于复杂问题来说,想找到一个满足所有约束条件的可行解(哪怕不是最优解),都相当于大海捞针。
使用A^启发式搜索来寻找最短路径(图片来源:维基百科)
虽然符号主义AI技术可以处理部分不可观察概率模型,但这些技术并不适用于有噪输入信号,也不适用于无法精确建模的场合。在那些可以准确判断出特定条件下特定动作利弊与否的场合中,它们会更有效。此外,算法系统还要提供适当的机制来实现清晰的规则编码与规则执行。
符号主义算法会剔除不符合特定模型的备选值,并能对符合所有约束条件的所求值做出验证,以后者而言,符号主义AI远比联结主义AI便捷。因为符号主义AI几乎或根本不包括算法训练,所以这个模型是动态的,能根据需要迅速调整。
何为联结主义AI?
联结主义AI取名自网络拓扑学。联结主义AI中知名度最高的是人工神经网络技术(ANN)。它由多层节点(即神经元)组成,这些节点可处理输入信号,并通过权重系数实现彼此的联结,并相互挤压形成下一层。支持向量机(SVMs)也属于联结主义AI。
人工神经网络大小不一,形状各异,包括卷积神经网络(擅长图像识别与位图文件分类)与长短期记忆网络(主要应用于时间序列分析等时间类问题)。深度学习与人工神经网络有着异曲同工之妙。
人工神经网络的一个神经元(图片来源:维基百科)
该技术的关键在于,用户无需指定模拟领域的规则,神经网络可以从训练数据中自行摸索。用户只需提供输入数据与输出数据采样(数据采样规模越大种类越多,效果则越好)。联结主义算法不断采用回归模型来调节中间变量的权重系数,直到找到最优模型为止。它通过梯度下降算法来调整权重,将所有训练数据点的累积误差最小化。
因为这些技术是有效的误差最小化算法,所以它们天生具有抗噪性,能消除异常值并将所得数值收敛于误差范围以内。
这些算法并不需要一个包罗万物的普适模型,只要有足够的样本数据,便可从统计学意义上自行推导出那个模型。这既是联结主义算法的长处,也是它的软肋。输入特征必须谨慎选择,并通过规范化、精细化处理来避免某一个特征喧宾夺主。此外,输入特征还要预处理,这对数据分类来说意义重大。
特征工程这个技术,个中自有奥秘,它是机器学习项目能否成功的关键因素。特征过多,或是没有一个能够涵盖所有特征全排列的代表性数据集,就会导致过拟合或欠拟合。就算在最资深的数据科学家帮助之下,你也可能对手头上的数据质量一筹莫展。这些技术也会受维数灾难的影响,输入特征越多,得出无效值的风险也就越大。
正在筛选特征的数据科学家——Artem Maltsev(图源Unsplash)
数据驱动算法默认自己得出的普适模型具有相对稳定性。如果该算法所解决的问题规则变动不大,或是变化速率慢到足以收集新数据,实现再训练,适应新形势,那还是十分有效的。图像识别就是一个教科书级别的成功案例,那是因为热狗的外形轮廓很可能是数年如一日,几乎没有变化。
HBO摄/ Twitter.com/TechatBloomberg
鱼和熊掌须得兼
算法的选择取决要具体问题具体分析。如今错误的选择很普遍,要么是由于媒体对某种算法的大肆宣传导致用户判断失误,要么是由于人们对AI算法缺乏宏观上的认识。常言道, “手里拿个锤子,瞅谁都像钉子。”但是,身边的一切终究不全是钉子,选择正确的算法,必须有的放矢,对症下药。
随着AI在生活各方面的重要性与日俱增,其要求也越来越复杂,一个应用越发需要多种算法的协同运作。经传感器收集得到的含噪数据需经过ANN处理,才能得到与环境相关的离散数据,而符号主义算法会用那些数据来搜索可能的动作空间,这些动作空间会在一个更抽象的逻辑层面实现一些给定目标。
在一定概率水平内,机器学习算法可以很有效地判断无人驾驶汽车的周边路况,但如果因为训练数据样本中没有合理考虑到某种情形而导致汽车开下悬崖,那这种误差便是不可接受的。进一步而言,将深度学习用在任务关键型应用上是极具挑战性的。比如,一辆无人驾驶的摩托车会因翻到在地而错误地打开了减速伞——所以深度学习的发展任重道远。
覆盖符号约束系统可确保符合逻辑的操作得到有效执行,这能规避因统计性偏差或传感器度数异常而引发的深度学习层判断失误。对于诸如发电站管理,列车调度,自动驾驶系统,空间应用等高风险决策领域而言,这一点愈加重要。上述系统一旦分类失误,所造成的破坏性影响可远比安利错一部电影要严重得多。
联结主义AI与符号主义AI的有机结合能让彼此扬长补短。固守一家所带来的弊端世人早已有目共睹。最新研究显示,两者的集大成者将使AI求解更加智能。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”