黑箱难题仍在阻碍深度学习的普及

yanrumei

2017-11-24

黑箱难题仍在阻碍深度学习的普及

当前，深度学习扛起了人工智能的大旗，让我们得以一窥智能机器在将来的能耐。但深度学习有个不小的问题：没人知道它是如何运作的。

我们并不是对深度学习一无所知。作为当今神经网络的核心，机器学习算法已经发展了几十年，它定义完善，文献丰富。在银行和保险业等受到严格监管的行业，这些算法已经普及多年，不曾引发重大问题。

“机器学习基本就是线性数学，很好解释，”数据公司Teradata首席技术官斯蒂芬·布罗布斯特（Stephen Brobst）在Teradata合作伙伴大会的一场小组讨论上说。“然而，一旦涉及到多层神经网络，问题就成了非线性数学。不同变量之间的关系就纠缠不清了。”

神经网络的明晰性问题植根于它的基本架构，这种架构的复杂性是与生俱来的。通过将很多隐藏层逐层堆叠起来，我们其实创造出了几乎无限量的路径，供数据在网络中训练时经过。继而，通过让数据一遍又一遍地经过这些路径，将每次循环中变量的权重交由机器自己决定，我们发现可以制造出更好的机器，提供比传统机器学习方法更加优质的答案。

这是对人脑的一种粗糙演绎——这里要强调的是“粗糙”，因为我们仍未充分掌握人脑的运作原理——但我们知道人脑能起作用，也知道神经网络能起作用，虽然我们对它们的运作原理不甚了了。从某种层面上讲，神经网络的不透明性不是什么缺陷，而是一种特色。

黑箱难题仍在阻碍深度学习的普及

复杂性正是深度学习起效的秘方。

这也是一个不小的研究领域。金融服务等行业都对神经网络垂涎三尺，但目前都被禁止使用，因为他们无法向监管机构充分解释神经网络的运作原理。“在将机器学习投入风险评估等领域的过程中，这是最大的一个障碍，这些领域受到严格的监管，”布罗布斯特说。“若只是欺诈检测和推荐引擎，你还可以侥幸过关。但监管严格的领域就不行了。”

这足以使DataRobot公司在这些领域的客户回避深度学习框架，如Tensorflow等，尽管DataRobot会帮助实现其自动化使用。“有时候，这些模型会因无法验证而被拒之门外，”DataRobot首席运营官克里斯·德瓦尼（Chris Devaney）说。“你不太容易为它辩护。即便不是黑箱，它也表现得像个黑箱，因为你无法记录神经网络算法深处发生的一切。”

TensorFlow可以针对大规模数据集作出快速预测，但DataRobot的顾客不愿触及。目前，DataRobot正在与Immuta合作，旨在寻找并削减机器学习中的偏差，这方面的工作终将有所成效，但任重道远。“对于一些受到严格监管的客户，如果必须在政府机构面前捍卫这种模型，他们就会放弃考虑，”他说。

研究公司ForresterResearch副总裁、首席分析师麦克·格列蒂里（Mike Gualtieri）说，有些公司一边使用深度学习，一边还抱有某种程度的怀疑。“连使用这些模型的公司都不信任它们，”他在近期的合作伙伴会议上说。

他说，开始使用深度学习的公司有办法对付这种不确定性，包括加入人类干预，用规则加以限定，他说。

“模型可以作出预测——这个预测始终都是一个概率——但如果预测不准呢？”他说。“你可以用规则加以限定。比如告诉它‘这是欺诈’，模型可能会说：‘这不是欺诈’。你也可以设定有利于人类的规则，比如说，‘我才不管模型怎么说——在我看来，这就是欺诈。”

在增加神经网络的透明度方面，人们已经做了一些工作。其中之一被称为“局部可理解的与模型无关的解释技术”（Model-Agnostic Explanations；下简称LIME）框架，由华盛顿大学计算机科学教授马可·图里奥·里贝罗（Marco Tulio Ribeiro）和他的同事萨米尔·辛格（Sameer Singh）及卡洛斯·格斯特林（Carlos Guestrin）共同提出。

LIME框架的设计旨在提高可理解性，使各类不透明算法生成的预测更易于解释。这包括传统的机器学习技术，比如随机森林与支持向量机（SVM），以及当今日益流行的神经网络技术。

机器学习深度学习神经网络

安科网

黑箱难题仍在阻碍深度学习的普及

yanrumei

yanrumei

相关推荐

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

自动驾驶汽车深度学习如何应对挑战?

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

DJL 如何正确打开 [ 深度学习 ]

揭开AI、机器学习和深度学习的神秘面纱

用 Java 训练深度学习模型，原来可以这么简单！

面向深度学习的五大神经网络模型及其应用

选择困难终结者：不同问题之下的机器学习算法

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

yanrumei