研学社|一起研习 Domingos的《终极算法》第二期

机器之心原创

人工智能研学社

继 Google、Facebook 纷纷高调宣布自己是「人工智能公司」后,前日的苹果 WWDC 开发者大会上,各类融合了机器学习与人工智能的产品第一次清晰表明了苹果在人工智能领域的蓝图。至此,「人工智能」正式成为科技巨头们高调比拼的角力场。可以说,机器学习所代表的人工智能,已经不再是一个新鲜的概念,科技、医疗、金融、安防,甚至政治、社会研究,都逐渐将这类强大的算法整合到自己的架构中去,以发挥更大的效能。在这样的浪潮之下,了解人工智能与机器学习,是每一个关心科技与社会发展的人必做的功课。

然而,这并不是一个低门槛的领域,人工智能也有其漫长的历史和复杂的发展结构,想要了解事情的全貌,无法一蹴而就。如果你对人工智能缺乏系统的了解,机器之心向你推荐 Pedro Domingos 的著作《终极算法》(The Master Algorithm)。同时,以这本书为载体,机器之心「人工智能研学社· 入门组」也已经完成了一半的学习内容。在后半部书中,作者开始对人工智能不同流派的相关理论模型进行详细讨论,如果你对机器学习算法的技术细节及其背后的哲学感兴趣,这也是一个开始学习的极好时机。

现在,我们邀请所有对人工智能、机器学习感兴趣的初学者加入我们,通过对 The Master Algorithm 的阅读与讨论,宏观、全面地了解人工智能的发展历史与技术原理。本期招新,我们将对学习材料和加入流程进行介绍,文末还有第六章的总结提纲。报名请扫描文中的二维码。我们期待你的加入!

THE Master Algorithm 介绍

The Master Algorithm 是一本介绍机器学习的科普性质读物,未涉及公式与代码,不要求读者具备相关的专业知识,一定的理科基础便足以通过阅读概念化的核心算法形成基础的框架式理解。作者 Pedro Domingos 是机器学习领域的资深专家,现任华盛顿大学计算机科学教授,著有多篇机器学习论文且荣获多项顶级科研奖项。全书条理清晰,内容丰富,深入浅出地介绍了机器学习中五大流派的衍生、发展和应用:推崇逆向演绎的符号学派、主张逆行分析的联结学派、模拟自然选择的进化学派、奉行概率推理的贝叶斯学派、以及根据相似性判断作出推理的类推学派。即使目前各种典型算法可以解决具有针对性的特定问题,书中有大量篇幅介绍通用算法的设想,试图将不同学派融为一体,博采众长,以一举解决所有的综合应用问题。作者对通用算法的存在和其即将出现的必然性所怀有的信心渗透在行文的字里行间。

The Master Algorithm Program 是研学社现下推出的一个入门级项目,基于 Pedro Domingos 所著的 The Master Algorithm 的阅读和讨论,旨在聚集起以此书入门机器学习的初学者,鼓励自由提问和开放式讨论,定期汇总问题并整理出相应的诠释,以创建一个有良好氛围的学习社区。项目推出至结束将持续十周,阅读进度为每周一章,每章讨论周期为一周,通过相应章节测试题的申请者将被视为合格并会被邀请加入特定微信群。详情如下:

机器之心「人工智能研学社 · 入门组」往期内容:

  • 第五期 | 进入贝叶斯的殿堂:https://www.jiqizhixin.com/articles/9b881533-75ee-4ee3-bba1-6a21930a7491

  • 第六期 | 初入贝叶斯网络:https://www.jiqizhixin.com/articles/51dadf29-43fa-4b08-b31c-2b212987ff0d

加入机器之心「人工智能研学社 · 入门组」

对于机器学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:

1. 找不到合适的学习策略

2. 有学习动力,但无法坚持

3. 学习效果无法评估

4. 遇到问题缺乏讨论和解答的途径

因此,为了帮助「机器学习新手」进入这一领域,机器之心发起了一个互助式学习小组——「人工智能研学社· 入门组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对机器学习的理解和认知。

  • 面向人群:有一定的计算机技术基础,在机器学习方面处于学习阶段的人

  • 学习形式:学习资料推荐、统一进度学习(章节总结与测验)、群组讨论、专家答疑、讲座等。

  • 加入方式:

1)添加机器之心小助手微信,并注明:加入机器学习入门组

2)完成小助手发送的入群测试(题目会根据每期内容变化),并提交答案,以及其他相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)

3)小助手将邀请成功通过测试的朋友进入「人工智能研学社· 入门组」

入群问卷

1)教育背景 2)从事行业和职务 3)计算机经历

第六章贝叶斯定理总结

支配世界的定理:贝叶斯定理

贝叶斯定理是一个简单的规律,描述了你在看到新证据后对某个假设的置信程度的改变:如果证据与假设一致,该假设的成立概率就提高;如果不一致,则会降低。

贝叶斯定理的历史:

  • 托马斯贝叶斯:这位牧师第一次提出了对概率的新思考方式。

  • Pierre-Simon de Laplace:首次从贝叶斯观点出发发展出贝叶斯定理的法国人。

事实上,人类并不是很擅长贝叶斯推理,至少在牵涉到语言推理时是这样的。问题是我们通常会忽视原因的先验概率。举个关于 HIV 的例子:你如果 HIV 测试结果呈阳性,并且测试出现假阳性的概率只有 1%。似乎第一眼看上去你得艾兹的概率达到了 99%。那么我们可以使用贝叶斯定理,p(HIV 感染概率) = p(HIV) × p(阳性 HIV 概率) / p(阳性概率) = 0.003 × 0.99 / 0.01 = 0.297(这里我们假定了 p(HIV) 为一般人群感染 HIV 的概率,美国为 0.003;p(阳性概率) 为无论你有没有试验结果都呈阳性的概率,假设是 0.01)。所以对于一个阳性测试结果,实际感染 HIV 的概率却只有 0.297。

  • 频率学派:认为概率是一种频率。他们通过事件发生的频繁程度推测概率的大小。

  • 贝叶斯学派:认为概率是一种主观的置信程度。他们认为你应该在新证据出现后,更新你所相信的假设。

朴素贝叶斯分类器(所有的模型都是错误的,但有些是有用的。-George Box)

  • 朴素贝叶斯分类器可以表达为原因→ 效果图模型,就如上图所示。

  • 朴素假设:给定分类标签,所有的特征都是条件独立的。比如说,p(X1|Y) 与 p(X2|Y) 是相互独立的。即满足方程式:P(X1, X2|Y) = p(X1|Y) * p(X2|Y)

  • 运行时间复杂度 = O(CD)。C= 类型数,D=特征数

  • 一个有足够数据去估测的过于简单模型比一个数据不足的完美模型更好。

  • 优势:快速;避免了过拟合;这个简单模型经验上标校友联表现优良,即使朴素假设并不实际。

  • 成对连接

马尔可夫链与隐马尔可夫模型(从 Eugene Onegin 到 Siri)

  • Markov 假定(错误但有用)一个事件的概率在文本的每个位置都是一样的。

  • 隐马尔可夫模型(HMM):在一个隐藏状态中假定马尔可夫过程。

  • 语音识别(Siri):

  • 隐藏状态:写下来的文字

  • 观察:说给 Siri 的话 目的是从声音中推断出文字

  • 其它应用:计算生物学,词性标记

Bayesian Network and its applications (Everything is connected, but not directly)

  • 贝叶斯网络(Judea Pearl)是一个非常复杂的相关性随机变量网络,其中每个变量仅直接和其他很少的几个变量相关。

  • 朴素贝叶斯、马尔可夫链,和隐马尔可夫模型是贝叶斯网络的几种特例。

  • 例子:报警器。

  • 你房子里装的报警器会因为盗贼试图入侵而激发,也会被地震激发如果警报器响了,邻居 Bob 或 Claire 会电话通知你

  • 警报响了以后,Bob 会根据盗窃或地震打电话。对于一个已有的警报,Bob 的电话与盗窃和地震是条件独立的。当他发现警报响起时,Bob 打电话通知的事件是与盗窃和地震条件独立的。若没有独立的结构,我们需要了解 2^5 种可能性。用这个结构,我们只需要 1+1+4+2+2 = 10 种可能性。

  • 应用:需要领域知识辨识出图像的结构!!

  • 生物:一个给定细胞中基因是如何互相调控的广告:选择放在网络上的广告游戏:给玩家评分,基于类似的技能匹配玩家。

推理(推理问题)

  • 推理问题即在没有构建出完整概率表的情况下,如何计算一个特定的概率。

  • 在很多案例中,我们可以做到这点,且避免成指数放大。

  • 环路信念传播:

  • 图(graph)包括了循环。我们假设图没有循环,仅仅是不停的往复传播概率,直到收敛。但它有可能得出一个错误的答案,或根本就不收敛。

  • 马尔可夫链蒙特卡尔理论

  • 设计一个收敛到贝叶斯网络分布的马尔可夫链。需要经过一系列步骤。使用一个建议分布 Q (通常是易处理的)逼近于复杂的真实(通常很棘手而且是高维的)数据分布。优势:一个好用的马尔可夫链会收敛到 s 稳态分布。劣势:很难收敛,并且会导致坏结果。

最大后验概率 & 最大似然估计(学习贝叶斯方法)

p(hypo|data) * p(data) = p(data|hypo) * p(hypo)

我们能忽略 p(data),因为其对所有假设都是一样的。

p(hypo|data) = p(data|hypo) * p(hypo)

先验概率:p(hypo)

似然性: p(data|hypo)

后验概率:p(data|hypo) * p(hypo)

  • 频率学派:最大似然估计(MLE):在进行推论时,我们只关心似然度,并选择给出所最大化 p(data|hypo) 的假设作为预测。

  • 贝叶斯学派:最大后验概率(MLE):我们也需要把先验 p(hypo) 纳入计算,不仅是似然度,还要选择给出最大 p(data|hypo) * p(hypo) 的假设作为预测。

  • 如果我们认为所有假设都服从均匀分布,那么 MAP = MLE。

  • 计算 MAP 需要先计算 p(data)。然而,实际上,p(data) 由高维度特征构成,因此,p(data) 很难精确计算。我们只能用数值法粗略估算它的下确界或上确界。除了计算之外,MAP 经常引发数据分布的偏差,即 MAP 容易过拟合。适当的选择适合给定问题的方式永远是很重要的。

  • MLE 的劣势:如果到目前时间还没有发生(可能性=0),那么根据 MLE 它将来也永远不会出现。

马尔可夫网络/马尔可夫随机场(马尔可夫权衡了证据)

  • 马尔可夫网络是一组有着相关权重的特征,其定义了一个概率分布

  • 它确实是一个无向图模型

  • 应用:图像分割(把每个像素看作一个结点)

思考 & 重点:

  1. 有两种统计学家,一种是频率学派,认为频率就是概率。另一种是贝叶斯学派的,用新数据更新先验概率,以得出后验概率。

  2. 贝叶斯网络是有向图模型,背后的定律就是贝叶斯理论。

  3. 贝叶斯网络推论可以使精确或近似值。

  4. MLE 和 MAP 是完全不同的估计方法。

  5. 马尔可夫随机场是一种无向图模型。

第六周 Q & A 总结

  1. 什么是贝叶斯定理?

  2. P(A|B) = P(A) P(B|A) / P(B)「贝叶斯」定理只是一个说明了你在看到新证据是会更新相信程度的简单规律:如果证据和假设一致,假设的可能性就会提高,反之则降低。

  3. 什么是朴素假设,它在朴素贝叶斯分类器中扮演了什么角色?

  4. 「朴素假设:所有特征都是条件独立于给定类别标签的。」角色:它是朴素贝叶斯分类器的基础。

  5. 隐马尔可夫模型(HMM)和马尔可夫模型之间的差别在哪里?

  6. HMM 是马尔可夫模型中的一类,有着未被观察的(或部分被观察的)系统状态。

  7. 为何领域知识对与图像模型的构建和推论很重要?

相关推荐