如何更好地阅读包含很多数学相关内容的机器学习论文？

tjuvirus

2017-08-21

如何更好地阅读包含很多数学相关内容的机器学习论文？

有些机器学习论文里包含了大量的数学公式、理论和证明。通常，阅读这类论文要比阅读普通的深度学习论文花上更多的时间。对机器学习论文读者而言，需要什么样的数学背景?有哪些书有助于理解机器学习论文?可以阅读哪些书籍来提高阅读这类论文的能力呢?

最近reddit上的网友们针对以上问题展开了热烈的讨论，我们将讨论贴中的观点整理和总结如下。

对包含了大量数学公式的机器学习论文，有两种理解。

第一种是，一篇文章中有大量的公式、代数理论和复杂的公式计算。

一般而言，阅读论文都不会只读一遍。可以先浏览标题，然后决定是否要阅读摘要，再决定是否直接跳到结果部分。

阅读有着大量代数理论的论文的秘诀在于，在第一篇粗读时，不要一步步跟随代数部分。大部分学生都会犯下这个错误。在第一遍阅读时，你并不需要理解一个冗长计算的所有步骤。相反，默认它们是正确的，跳过它们，深入阅读关键的步骤。读公式之间的文字描述，读实验结果，读结论。当你大致明白了文章所谈论的东西之后，你再决定是否把时间花费在代数部分。不要在看不懂的步骤上花太多时间。当你以后有空时，可以重复阅读来慢慢理解它们。

当你逐渐成长为“应用数学家”时，你的能力也相应地增强了，浏览代数部分时已经能大致了解作者想达到什么目的以及大致所需要的步骤。没有人能够快速地阅读冗长复杂的计算公式。这也是为什么在第一遍阅读时要跳过公式的原因。从粗读开始，在每一次细读时再慢慢琢磨细节。

另外，你也应注意到，有时候这些计算里是有错误的。我们很难在第一次读的时候就发现它们。很多时间，这些错误与文章的观点是不相关的，但是它们会让读者产生混淆并阻碍读者理解数学内容。如果你已经基本理解了作者所做的工作，这些错误也很容易被找出。而且，当你看这些公式时，要确保你明白它们的真正意义。你可能知道某个公式的数学计算，但是你了解其背后的含义吗?譬如，你是否能够解释在某个特定系统下该公式的意义何在?你能否说出“当最大化ELBO(Evidence Lower Bound Objective，似然函数下限)时，估计后验值与似然数据所允许的前验值类似”?这就是ELBO表达式背后的含义。当你达到了这一境界时，对冗长的代数操作进行推理就会变得更容易了。如何达到这种境界呢?读很多理论书，做很多代数题，这里没有捷径可走。

第二种是，论文中用到了大量的数学理论和证明，依赖大量的数学概念、理论和证明(有时候是过多且不必要的)来验证文章的观点。这种文章的核心就是数学。譬如，论文“为什么在增强学习中后验取样比优化更好”就是一篇数学理论性很强的文章。

对有些读者而言，这类文章更难阅读，因为它们往往很容易令人混淆。所有正式的谈论看起来都很重要。对这种论文，阅读的技巧是相通的：粗读。我们并不需要去查询Wikipedia来试图记住Borel hierarchy是什么。我们可以把这些时间节省下来，说不定我们再也不会读第二次了。

另外，也可以把用于某个特例的概念替换为一个简单的场景。很多时候，人们之所以用到正式的数学公式和推导，是因为他们在打安全牌、不想让一些诡异的边角例子破坏他们的推理。譬如，有一些聪明的数学系博士生会问：“如果该函数在每一处都是连续的但是不可微的，你认为还是否适用呢?”遇到这种情况怎么办?你所能做的就是假设没有这么聪明的学生，把所有Radon-Nikodym导数都替换为比率，把所有测量标准都替换为有黎曼积分的简单函数，并假设这个作者只是在炫耀自己的数学知识，而你不需要通过这些数学知识来理解他所谈论的东西。

有时候这些方法都不适用，因为对某些文章，你必须认真阅读数学理论和推导来理解文章。

有时候，论文中引用数学公式只是为了更好地描述问题，仅仅了解公式的名称也能帮助你阅读文章。但是也有特例，譬如，KL散度依赖于扎实的统计和信息论理论，当你阅读时，你会对其中的推论和计算点头称赞，但要想完全理解它，的确需要一些时间。

对有些人而言，更有效的方法是，拿出纸和笔，按照论文中的计算步骤一步步完成。这样有助于理解文章中的内容，而且也有助于发现其中简单的错误或笔误。很多文章会省略一些很明显的步骤，当只是用眼睛看的时候，很难跟着这些公式的思路。但是，如果你自己动手重新计算一次，就能涵盖文中所跳过的简单但重要的步骤。当然，每个人可以根据自己的情况来决定深入研究的程度。对于那种嵌套引用其他文章的断言或理论，你可以决定是继续查看参考文献还是直接跳过。

如果论文作者已经将基于论文实现的代码公布到了GitHub上，读者可以粗读摘要和结论，然后跳入到程序中。这也是一个将理论与实践相结合的好方法。譬如，论文“Self-Normalizing Neural Networks”中有着大量的公式，并在附录中给出了大篇幅的数学计算和证明。但这些附录中的计算是从一个计算机辅助的代数系统中生成出来的，对读者而言价值不大，可以快速地跳过。如果有读者想检查这些证明，当然也可以细看。该论文也有相应的GitHub代码，读者可以借助它来更好地理解文章。

也有人借助于量子物理中的费曼图(Feynman Diagrams)，将复杂的公式抽象化和图形化，对于有物理背景的人而言，是一个简单易用的方法。

数学机器学习

tjuvirus

0 关注 0 粉丝 0 动态

相关推荐

机器学习中的数学意义

机器学习中的用于声称性能的指标标准很少被讨论。由于在这个问题上似乎没有一个明确的、广泛的共识，因此我认为提供我一直在倡导并尽可能遵循的标准可能会很有趣。它源于这个简单的前提，这是我的科学老师从中学开始就灌输给我的：。科学报告的一般规则是，您写下的每个数字都

xceman 2020-10-13

师生关系

我觉得我从小到大都很幸运，从小学到大学都遇见了很好的老师。她和其他老师相比是比较严厉的那种。如今已经步入大学校园，心智也逐渐成熟，对于老师一词的意义也有了更加深刻的理解。人的一生注定是要一辈子不断地去学习，去完善自己。正所谓，“”授人以鱼不如授人以渔“”。

算法与数学之美 2020-10-07

微软AI要参加IMO竞赛！小目标：数学金牌

今年，可能是最后一届“纯人类”参赛的IMO。这名潜入IMO赛事的AI名为Lean，由微软的研究人员开发。目前，他们正计划让Lean参与明年的国际奥数竞赛。也就是说，它将与世界各国的奥赛选手一起争夺IMO金牌。其实，微软研究人员让AI参加IMO的理由，原因是

Anscor 2020-10-05

学会Python后都能做什么？网友们的回答简直不要太厉害

如今，越来越多的人加入到学习Python的队伍当中。确实，Python早已不是程序员的专属技能，随着Python更多的可能性被挖掘出来，大家对Python的兴趣越来越浓，这也是近年来Python越来越火的原因。而在Python领域非常有研究的网友们，也在学

liwg0 2020-09-08

困扰数学家90年的猜想，被计算机搜索30分钟解决了

就连困扰人类90年的数学猜想也挡不住。来自斯坦福、CMU等高校的4名数学家，将一个数学难题转化成了对10亿个结果进行“暴力搜索”。凯勒猜想在不超过7维的空间上都是正确的。现在，任何人都可以去GitHub上克隆这串代码，验证这一数学定理。1992年，另外两位

数学爱好者 2020-08-31

使用GNU bc在Linux Shell中进行数学运算

在 shell 中使用 bc 更好地做算数，它是一种用于高级计算的数学语言。大多数POSIX系统带有GNU bc，这是一种任意精度的数字处理语言。它的语法类似于 C，但是它也支持交互式执行语句和处理来自标准输入的数据。因此，它通常是以下问题的答案：“我如何

thermodynamicB 2020-08-11

OpenGL 六 - 3D数学基础 - 向量、矩阵及OpenGL中的变换

关于矩阵和向量的相关知识，大家可能和我一样毕业后几乎就慢慢遗忘干净了。但是，既然学过，回忆起来其实并不太难。而且，即使没有学过，也并不影响我们对相关API的使用。当然基础知识的理解会帮助我们弄明白和更好的进行OpenGL的开发工作。GLTools库中的Ma

夕加加 2020-07-20

参加数学建模大赛的计划

列出问题中涉及到的变量，包括适当的单位。注意不要混淆了变量和常量。检查单位从而保证你的假设有意义。用准确的数学表达式给出问题的目标。选择解决你的问题的一个一般的求解方法。一般地，这一步的成功需要经验、技巧和相对文献有一定的熟悉程度。将第一步中的得到的问题重

willowwgx 2020-07-18

一年级口算反思与总结

在一年级实际教学中，老师们都知道口算是一个重点，也是学生一项重要的教学能力考核。老师和家长常常简单把计算错误归结为粗心，以至于孩子出错也常常以粗心为借口。那么究竟是哪些原因导致了出错呢？所以针对孩子的错误类型，提出有效的纠正策略，帮助孩子避免和减少出错十分

kuoying 2020-07-16

中国AI技术领先，是因为数学好？美国杂志直指中美数学教育差距

美国 CS 专业超过 64% 博士生和近 70% 的硕士生是留学生，数学博士学位有一半授予了非美国公民，中国和印度学生占大部分。「知其然而不知所以然，他们仅仅擅长使用而不追求真理。」这名女生认为大多数亚洲人学习数学时注重运用却不关心原理推导，论据有一定的道

Anscor 2020-07-14

按成绩分班

根据输入的各科成绩分班。输入的是六门课成绩，比如：90,93,90,物理=89,化学=88,生物=91前三个值只固定对应语文、数学、英语三门课，所有不需要写课程名。后三门课要写上课程名，理科是物理、生物、化学；文科是政治、历史、地理，顺序可以不固定。eli

starletkiss 2020-07-08

数学公式

普通的方法就是For循环，循环次数为N,时间复杂度为O. 累加求和公式 sum = n(n+1)/2时间复杂度为O

willowwgx 2020-07-05

数学周测3讲解

然后在 \ 这方面的计算，只需要知道 \，把近似值背下来更好

算法与数学之美 2020-06-28

机器学习是否需要完整扎实的数学基础？

微积分、线性代数、概率与统计、矩阵和数值分析、优化方法线代，微积分，概率论，数理统计，一些算法思想的数学基础。这是基础，高等点做研究的，需要学习 random data，机器学习则偏向于概率统计，更多的是不确定性思维。机器学习把概率和图结合起来组成概率图模

kingzone 2020-06-27

机器学习背后的数学支柱，这5本书帮你搞定

机器学习从只适用于研发人员的工具变成了被广泛采纳使用的方法，多亏了开源机器学习和深度学习框架的爆炸性发展。现如今，机器学习领域比以往任何时候都更容易上手。同时，这也助力了我们目前所经历的科技的疯狂发展。弄清算法是如何真正工作的，可以帮助你在设计、开发和调试

xceman 2020-06-27

2020SDOI游记

T1：理清模型后发现数据有序维护起来会非常方便，就想到二叉搜索树。两种战士将合适温度“夹在中间”，就想到二分。正好前几天刚学了平衡树，就用它做了。但是很卡常，可惜没想到树状数组。考试前一天晚上被蚊子扰醒了4次，早上脑子也是很不好，写这一道题就用了3.5小时

算法与数学之美 2020-06-21

数学-高精度

之后，在比对转化的字符串的第一个字符是否为“0”，如果为0，则去掉它只保留小数点之后的数，利用substring，截取字符串。由于范围是10的100次方，因此我们设置大整数数组的长度为10000，足以包括。

kuoying 2020-06-21

入数据科学大坑，我需要什么样的数学水平？

作为一门基础性学科，数学在数据科学和机器学习领域都发挥着不可或缺的作用。数学基础是理解各种算法的先决条件，也将帮助我们更深入透彻地了解算法的内在原理。所以，本文作者阐释了数据科学和机器学习为何离不开数学，并提供了统计学与概率论、多变量微积分、线性代数以及优

秒懂数学 2020-06-17

【经验】数学备考

不要一味的追求刷几遍，要清楚每遍刷题的目的。同时，这一阶段才是暴露薄弱点的一轮，错题一定要弄懂，弄透。

算法与数学之美 2020-06-17

P2788 数学1（math1）- 加减算式

using namespace std;int a;int sum=0;sum+=a;cout<<sum<<endl;return 0;

starletkiss 2020-06-13

tjuvirus

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号