当贝叶斯,奥卡姆和香农走到一起来定义机器学习时
介绍
在机器学习的所有高级流行语中,我们很少听到一个短语将统计学习、信息论和自然哲学的一些核心概念融合成一个三个单词的组合。
并且,它不仅仅是一个用于机器学习(ML)博士和理论家的短语。对于任何有兴趣探索的人来说,它都具有精确且易于理解的含义,而且对于机器学习(ML)和数据科学的实践者来说,它是一种实用的回报。
我们说的是最小描述长度(Minimum Description Length)。你可能会想这到底是什么…
贝叶斯和他的定理
那是18世纪下半叶,当时还没有叫做“概率论”的数学科学分支。人们知道这一点,仅仅是因为听起来颇为奇怪的“机会主义”——以亚伯拉罕•德•莫耶弗(Abraham de Moievre)的一本书命名。1763年,一篇名为《关于解决机会主义问题的论文》的文章被读给皇家学会,并发表在《伦敦皇家学会哲学学报》上。在这篇文章中,贝叶斯用一种相当频繁的方式描述了一个关于联合概率的简单定理,它导致了反概率的计算,即贝叶斯定理。
从那以后,统计科学的两个敌对派别——贝叶斯学派和弗伦库姆斯学派之间爆发了多次争论。让我们暂时忽略历史,集中于对贝叶斯推理机制的简单解释。我只关注方程。
这基本上告诉您在看到数据/证据(可能性)后更新您的belief (先验概率)并将更新的degree of belief 分配给后验概率你可以从一个belief开始,但是每个数据点要么加强要么削弱你的belief,你会一直更新你的假设。
在统计推断的世界中,假设是一种belief 。这是一种关于过程本质的belief(我们永远无法观察到),它是在产生一个随机变量(我们可以观察或测量它,尽管不是没有噪声)之后。在统计学中,它通常被定义为一个概率分布。但在机器学习的背景下,它可以被认为是任何一套规则(逻辑或过程),我们相信,这些规则可以产生例子或训练数据,我们被赋予学习这个神秘过程的隐藏本质。
所以,让我们试着在不同的符号中重新定义贝叶斯定理——与数据科学相关的符号。我们用D表示数据,用h表示假设,这意味着我们使用贝叶斯公式来确定数据来自什么假设,给定数据。我们把定理重写为,
现在,一般来说,我们有一个很大的(通常是无限的)假设空间,即许多假设可供选择。贝叶斯推断的本质是我们想要检查数据以最大化一个假设的概率,该假设最有可能产生观察到的数据。我们基本上想要确定P(h | D)的argmax,即我们想知道哪个h,观察到的D最有可能。为此,我们可以把这个项放到分母P(D)中因为它不依赖于假设。这一方案以极大后验(MAP)这个饶舌的名字而闻名。
现在,我们应用以下数学技巧,
- 对于原函数,即取对数,极大化的工作原理与之相似,但这并没有改变极大化的问题。
- 乘积的对数是各个对数的总和
- 数量的最大化等同于负数量的最小化
来自信息论
香农
要描述克劳德·香农的天才和奇异的一生,需要大量的篇幅。香农几乎是单枪匹马奠定了信息论的基础,引领我们进入了现代高速通信和信息交流的时代。
香农在麻省理工学院(mit)的电子工程硕士论文被称为20世纪最重要的硕士论文:22岁的香农在论文中展示了如何利用继电器和开关的电子电路实现19世纪数学家乔治布尔(George Boole)的逻辑代数。数字计算机设计的最基本的特征——“True”、“False”、“0”和“1”的表示作为打开或关闭的开关,以及使用电子逻辑门来做决策和执行算术——可以追溯到香农论文中的见解。
但这还不是他最大的成就。
1941年,香农去了贝尔实验室,在那里他从事战争事务,包括密码学。他还在研究信息和通信背后的原创理论。1948年,贝尔实验室的研究杂志发表了一篇著名的论文。
香农定义了由一个源所产生的信息数量, 例如, 消息中的数量, 这个公式类似于物理中定义热力学熵的方程式。在最基本的术语中, 香农的信息熵是编码消息所需的二进制位数。对于具有概率 p 的消息或事件, 该消息的最有效 (即紧凑) 编码将需要-log2 (p) 位。
这正是出现在贝叶斯定理中的最大后验表达式中出现的那些术语的本质!
因此,我们可以说,在贝叶斯推理的世界中,最可能的假设依赖于两项,这两项唤起了长度的感觉——而不是最小长度。
长度(h):奥卡姆剃刀
奥克汉姆的威廉(约1287-1347)是一位英国Franciscan修士和神学家,也是一位有影响力的中世纪哲学家。作为一个伟大的逻辑学家,他的名声主要来自于他的格言,也就是众所周知的奥卡姆剃刀。剃刀一词指的是通过“剔除”不必要的假设或割裂两个相似的结论来区分两个假设。
确切地说,他说的是:“实体非必然的多元必然性”(实体不能超过必然性而倍增)。用统计学的话说,这意味着我们必须努力用最简单的假设来解释所有的数据。
类似的原则得到了其他杰出人物的响应。
艾萨克·牛顿爵士:“我们不应该承认任何自然事物的原因,就像那些既真实又足以解释其表象的事物一样。”
Bertrand Russell:“只要可能,用已知实体的结构替换未知实体的推论。”
下列哪一个决策树具有较小的长度?A还是B?
即使没有一个假设的“长度”的精确定义,我相信你会认为左边(A)的树看起来更小或更短。当然,你是对的。因此,一个更短的假设是一个要么自由参数更少,要么复杂决策边界更少(对于一个分类问题)的假设,或者这些属性的组合可以表示它的简洁性。
长度(D|h)
它是假设数据的长度。这是什么意思?
直觉上,它与假设的正确性或表征能力有关。除其他事项外,它还包含一个假设,即“推断”数据的好坏程度。如果假设真的很好地生成数据并且我们可以无错误地测量数据,那么我们根本不需要数据。
想想牛顿运动定律。
它们最初出现在《Principia》一书中,并没有任何严格的数学证明。它们不是定理。它们很像基于对自然物体运动的观察而做出的假设。但是他们对数据的描述非常非常好。因此它们就变成了物理定律。
这就是为什么你不需要保持和记住所有可能的加速度数字作为一个力作用于物体的函数。你只需要相信compact hypothesis,即F=ma,并相信所有你需要的数字,都可以在必要时从它计算出来。它使得长度(D|h)非常小。
但是如果数据与compact hypothesis有很大的偏差,那么你需要对这些偏差有一个很长的描述,可能的解释等等。
因此,Length(D|h)简洁地表达了“数据与给定假设的吻合程度”的概念。
本质上,它是错误分类或错误率的概念。对于完美的假设,它是短的,在极限情况下为零。对于一个不完全符合数据的假设,它往往比较长。
这就是权衡。
如果你用奥卡姆剃刀刮掉了你的假设,你很可能会得到一个简单的模型,一个不适合所有数据的模型。因此,你必须提供更多的数据来获得更好的brief。另一方面,如果你创建一个复杂的(长时间的)假设,你可能会很好地拟合你的训练数据,但这实际上可能不是正确的假设,因为它违背了具有小熵的假设的映射原则。
听起来像是偏差差权衡?是的
放在一起
因此,贝叶斯推理告诉我们,最好的假设是最小化假设的长度和错误率这两项之和。
在这个意义深远的句子中,它几乎囊括了所有(有监督的)机器学习。
- 线性模型的模型复杂度-多项式选择,如何减少残差平方和
- 神经网络结构的选择-如何不过度拟合训练数据,达到良好的验证精度,但减少分类误差。
- 支持向量机正则化和核选择-软与硬边界的平衡,即用决策边界非线性来平衡精度。
最后
一个奇妙的事实是,如此简单的一套数学操作就能在概率论的基本特征上产生如此深刻而简洁的描述监督机器学习的基本限制和目标。读者可以参考卡内基梅隆大学(Carnegie Mellon University)的博士论文《机器学习为何有效》(Why Machine Learning Works),以简明地阐述这些问题。同样值得思考的是,所有这些理论是如何与“没有免费午餐定理”理论联系起来的。