亚当与夏娃:解决深度学习问题的利器
我们先来看一下什么是亚当(Adam)方法:
Hiroaki Hiyashi , Jayanth Koushik , Graham Neubig 在论文 Eve: A Gradient Based Optimization Method with Locally and Globally Adaptive Learning Rates 中提出了一种改进 Adam (亚当) 算法的方法,命名为 Eve (夏娃)方法。 夏娃方法是在亚当算法的基础上进行了改进,我们先来看一下算法的伪代码:
最后,在针对数据的稳定性问题和平滑性问题,我们对学习速率进行处理,就得到了最后在算法伪代码中展示的步骤。
Adam 算法和 Eve 算法在 CNN 和 RNN 模型的测评结果如下图所示:
可以看到 Eve 算法在 CNN 上取得了比其他算法都要好的效果,而在 RNN 上的效果也表现不错。
机器学习和数据挖掘流行了这么多年,其实离不开统计概率和最优化的根基。平常大多数机器学习和数据挖掘的从业者都是在工业界深耕,因此对于数学本身的掌握程度要求没有那么高深。特别是在中国的企业,一般能做到跟进国际最新的潮流就可以了。
然而有的时候沉寂下来,用心钻研一下数学对于自己技术上的理解和深造是很有帮助的。Adam 算法和 Eve 算法本身的数学原理并不复杂,用到的唯一的统计学概念是无偏统计量,值得广大从业者认真学习其简单优美的思路。