把贝叶斯、奥卡姆和香农约一块儿,探讨下机器学习的定义!
点击上方关注,All in AI中国
作者: Tirthajyoti Sarkar
机器学习是一个绝妙的想法,它将统计学、信息理论和哲学的概念联系在一起。
介绍
有些令人惊讶的是,在机器学习的所有高级流行术语中,我们并没有听到太多关于将统计学、信息理论、自然哲学的一些核心概念融合为三个单词组成的短语。
并且,它不仅仅是一个机器学习(ML)博士和理论家采用的模糊和晦涩的术语。对于任何有兴趣探索的人来说,它都具有精确且易于访问的意义,并为机器学习和数据科学的从业者提供实际的回报。
我在探讨最简练的描述。而你可能在想这到底是什么…
让我们了解一下它将是多么有用......
贝叶斯及其定理
我们先从托马斯·贝叶斯(Thomas Bayes)开始(这不是按时间顺序),顺便说一下,他从未发表过关于如何进行统计推断的想法,但后来因为同名定理而闻名于世。
在18世纪下半叶,并没有数学科学的分支称之为"概率论"。它只是简单地被称为一种奇怪的"机会主义",这以亚伯拉罕·德·莫伊弗雷的一本书命名。一篇名为"关于解决机会问题的文章"(Doctrine of Chances),贝叶斯首先提出,由他的朋友理查德·普莱斯编辑和修改,并发表在伦敦皇家学会的哲学交易中。在这篇文章中,贝叶斯以一种相当频繁的方式描述了关于联合概率的简单定理,该定理导致逆概率的计算,即贝叶斯定理。
自那时以来,统计科学的两个派别 - 贝叶斯和Frequntists两派之间开展了许多争论。但是为了本文的目的,让我们暂时忽略这段历史,并专注于贝叶斯推理机制的简单解释。有关该主题的直观介绍,请参阅Brandon Rohrer的这篇精彩教程,虽然我只关心方程式。
这基本上告诉你在看到数据/证据(可能性)后更新你的信念(先验概率),并将更新的信念度分配给术语后验概率。你可以从一个信念开始,但每个数据点都会强化或削弱这种信念,并且将会一直更新你的假设。
听起来是不是简单直观?
我在段落的最后一句中有一个用词,你注意到了吗?我提到"假设"一词。这不是我进行的假设,而是正式的说法。
在统计推断的世界中,假设是一种信念。它是关于过程的真实性质(人们永远无法观察到)的信念,即产生随机变量的背后(我们可以观察或测量,尽管并不是没有噪声)。在统计中,它通常被定义为概率分布。但是在机器学习的背景下,可以考虑任何一组规则(或逻辑或过程),我们认为这些规则可以产生示例或训练数据,我们可以学习这个神秘过程的隐藏性质。
因此,让我们尝试采用不同的符号重构贝叶斯定理,这些是与数据科学有关的符号。让我们用d表示数据,用h表示假设。这意味着我们应用贝叶斯的公式来尝试确定数据来自哪个假设,给定数据。我们把定理改写为,
现在,一般来说,我们有一个很大的(通常是无限的)假设空间,即许多假设可供选择。贝叶斯推断的本质是我们想要检查数据以最大化一个假设的概率,该假设最有可能产生观察到的数据。我们想要确定P(h | D)的argmax,即我们想知道哪个h,观察到的D是最可能的。为此,我们可以安全地将该术语放在分母P(D)中,因为它不依赖于假设。该方案通过很拗口的最大后验概率(MAP)名称而为人所知。
现在,我们应用以下数学技巧,
•最大化对于对数与原始函数同样有效,即采用对数不会改变最大化问题。
•乘积的对数是各个对数的总和
•数量的最大化等同于负数的最小化
是不是很好奇 ......那些负对数为2的术语看起来很熟悉......这来自信息论!
那么以下了解一下克劳德·香农。
香农
描述克劳德·香农(Claude Shannon)的天才和生活将需要很多文章篇幅。而克劳德·香农几乎单枪匹马地奠定了信息理论的基础,并引领人们进入现代高速通信和信息交流的时代。
香农的麻省理工学院(MIT)电气工程硕士论文被称为20世纪最重要的硕士论文:当时22岁的香农展示了如何利用继电器和开关的电子电路实现19世纪数学家乔治·布尔的逻辑代数。数字计算机设计的最基本特征,也就是将"真"和"假"、"0"和"1"表示为开关或闭合开关,以及使用电子逻辑门进行决策和执行算术,这可以追溯到香农论文中的见解。
但这只是他最伟大的成就之一。
1941年,香农加入贝尔实验室,在那里他从事有关战争事务的研究,包括密码学。他还在研究信息和通信背后的原始理论。1948年,这项工作出现在贝尔实验室研究期刊上发表的一篇广受好评的论文中。
香农通过类似于定义物理学中热力学熵的方程式来定义信息源产生的信息量。例如,消息中的数量。在最基本的术语中,香农的信息熵是编码消息所需的二进制数字的数量。并且对于具有概率p的消息或事件,该消息的最有效(即紧凑)编码将需要-log2(p)比特。
而这正是出现在贝叶斯定理中的最大后验表达式中出现的那些术语的本质!
因此,我们可以说,在贝叶斯推理的世界中,最可能的假设取决于两个引起长度感觉的术语 - 而不是最小化Length (h)。
但那些长度的概念可能是什么呢?
Length (h):奥卡姆的剃刀
奥卡姆(威廉William of Ockham)(1287-1347)是英国圣方济各修士和神学家,也是一位有影响力的中世纪哲学家。他作为一个伟大的逻辑学家而闻名于世主要取决于他所说的格言,被称之为奥卡姆剃刀。术语剃刀是指通过"剃掉"不必要的假设或分割两个类似的结论来区分两个假设。
归于他的确切词汇是:entia non sunt multiplicanda praeter necessitatem(如无必要,勿增实体)。用统计学的说法,这意味着人们必须努力用最简单的假设来解释所有数据。
其他著名学者也回应了类似的原则。
伊萨克·牛顿爵士(Sir Issac Newton):"我们应该承认,寻求自然事物的原因,不得超出真实和足以解释其现象者。"
伯特兰·阿瑟·威廉·罗素(Bertrand Russell):"只要可能,就用由已知实体组成的构造来代替推导出未知实体的推论"。
总是喜欢较短的假设。
需要一个关于假设的长度的例子吗?
以下哪个决策树的长度较短? A还是B?
即使没有对假设的"长度"的精确定义,我相信你会认为左边的树(A)看起来更小或更短。当然,你是对的。因此,较短的假设是具有较少的自由参数,或复杂较小的决策边界(对于分类问题),或这些属性的某种组合,其可以表示其简洁性。
那么''Length(D|h)'是什么?
给定假设是数据的长度。这意味着什么?
在直觉上,它与假设的正确性或表征能力有关。除其他事项外,它还包含一个假设,即"推断"数据的好坏程度。如果假设真的很好地生成数据并且可以无错误地测量数据,那么我们根本不需要数据。
想一想牛顿的运动定律。
当这些理论首次出现在《科学溯源》(Principia)时,并没有任何严格的数学证明。它们不是定理。根据对自然体运动的观察,它们很像假设。但是这些理论真的很好地描述了数据。因此,他们成为了物理定律。
这就是为什么你不需要记忆所有的加速度数字,并作为施加在物体上的力的函数的原因。你只相信这个紧凑的假设,即F=ma定律,并且相信你需要的所有数字,只要在必要时就可以从中计算。它使Length(D|h)非常小。
但是,如果数据与紧凑假设相差很大,那么你需要对这些偏差可能的解释进行长时间的描述。
因此,Length(D|h)简洁地捕捉了"数据与给定假设的拟合程度"的概念。
本质上,它是错误分类或错误率的概念。对于一个完美的假设,它是短的,在极限情况下为零。对于一个不完全符合数据的假设,它往往是很长的。
这就是权衡。
如果你用奥卡姆的剃须刀剃掉你的假设,你可能会留下一个简单的模型,一个不能适应所有数据的模型。因此,你必须提供更多的数据来获得更好的信心。另一方面,如果你创建了一个复杂(且很长)的假设,那么你可能真的能够很好地拟合您的训练数据,但是这实际上可能不是正确的假设,因为它违背了具有小熵假设的MAP原则。
听起来像一个偏差方差权衡?是的。
把它们放在一起
因此,贝叶斯推断告诉我们,最佳假设是最小化假设长度和错误率这两个项之和的假设。
在这个深刻的句子中,它几乎捕获了所有(受监督的)机器学习。
想想它的后果,
•线性模型的模型复杂度 - 选择多项式的程度,如何减少平方和残差。
•选择神经网络的体系结构 - 如何不过度拟合训练数据并获得良好的验证准确性,但减少分类错误。
•支持向量机正则化和软边界与硬边界之间的平衡的内核选择,即利用决策边界非线性来权衡精度。
总结与思考
一个奇妙的事实是,在概率论的基本恒等式进行这样一套简单的数学操作可以导致对监督机器学习的基本限制和目标进行如此深刻和简洁的描述。对于这些问题的简要处理,读者可以参考卡内基梅隆大学的博士论文"为什么采用机器学习"。
同样值得思考的是,所有这些都与"没有免费午餐定理"有关。https://en.wikipedia.org/wiki/No_free_lunch_theorem
如果你对这个领域有更深层次的兴趣,可以参阅:
1."没有免费午餐和最小描述长度"
citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.160.798&rep=rep1&type=pdf
2."在监督学习中没有免费午餐与奥卡姆剃刀"
https://pdfs.semanticscholar.org/83cd/86c2c7e507e8ebba9563a9efaba7c966a1b3.pdf
3."没有免费午餐和问题描述长度"www.no-free-lunch.org/ScVW01.pdf