机器学习逻辑回归算法推导

PeterHuang0

2019-11-29

1.引自https://www.cnblogs.com/bnuvincent/p/9695666.html

2. 基本原理

Logistic Regression和Linear Regression的原理是相似的，按照我自己的理解，可以简单的描述为这样的过程：

（1）找一个合适的预测函数（Andrew Ng的公开课中称为hypothesis），一般表示为h函数，该函数就是我们需要找的分类函数，它用来预测输入数据的判断结果。这个过程时非常关键的，需要对数据有一定的了解或分析，知道或者猜测预测函数的“大概”形式，比如是线性函数还是非线性函数。

（2）构造一个Cost函数（损失函数），该函数表示预测的输出（h）与训练数据类别（y）之间的偏差，可以是二者之间的差（h-y）或者是其他的形式。综合考虑所有训练数据的“损失”，将Cost求和或者求平均，记为J(θ)函数，表示所有训练数据预测值与实际类别的偏差。

（3）显然，J(θ)函数的值越小表示预测函数越准确（即h函数越准确），所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法，Logistic Regression实现时有的是梯度下降法（Gradient Descent）。

3. 具体过程

3.1 构造预测函数

Logistic Regression虽然名字里带“回归”，但是它实际上是一种分类方法，用于两分类问题（即输出只有两种）。根据第二章中的步骤，需要先找到一个预测函数（h），显然，该函数的输出必须是两个值（分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数），函数形式为：

机器学习逻辑回归算法推导

对应的函数图像是一个取值在0和1之间的S型曲线（图1）。

机器学习逻辑回归算法推导

图1

接下来需要确定数据划分的边界类型，对于图2和图3中的两种数据分布，显然图2需要一个线性的边界，而图3需要一个非线性的边界。接下来我们只讨论线性边界的情况。

机器学习逻辑回归算法推导

图2

机器学习逻辑回归算法推导

图3

对于线性边界的情况，边界形式如下：

机器学习逻辑回归算法推导

构造预测函数为：

机器学习逻辑回归算法推导

hθ(x)函数的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

机器学习逻辑回归算法推导

3.2 构造Cost函数

Andrew Ng在课程中直接给出了Cost函数及J(θ)函数如式（5）和（6），但是并没有给出具体的解释，只是说明了这个函数来衡量h函数预测的好坏是合理的。

机器学习逻辑回归算法推导

实际上这里的Cost函数和J(θ)函数是基于最大似然估计推导得到的。下面详细说明推导的过程。（4）式综合起来可以写成：

机器学习逻辑回归算法推导

取似然函数为：

机器学习逻辑回归算法推导

对数似然函数为：

机器学习逻辑回归算法推导

最大似然估计就是要求得使l(θ)取最大值时的θ，其实这里可以使用梯度上升法求解，求得的θ就是要求的最佳参数。但是，在Andrew Ng的课程中将J(θ)取为（6）式，即：

机器学习逻辑回归算法推导

因为乘了一个负的系数-1/m，所以J(θ)取最小值时的θ为要求的最佳参数。

3.3 梯度下降法求J(θ)的最小值

求J(θ)的最小值可以使用梯度下降法，根据梯度下降法可得θ的更新过程：

机器学习逻辑回归算法推导

式中为α学习步长，下面来求偏导：

机器学习逻辑回归算法推导

上式求解过程中用到如下的公式：

机器学习逻辑回归算法推导

因此，（11）式的更新过程可以写成：

机器学习逻辑回归算法推导

因为式中α本来为一常量，所以1/m一般将省略，所以最终的θ更新过程为：

机器学习逻辑回归算法推导

另外，补充一下，3.2节中提到求得l(θ)取最大值时的θ也是一样的，用梯度上升法求（9）式的最大值，可得：

机器学习逻辑回归算法推导

观察上式发现跟（14）是一样的，所以，采用梯度上升发和梯度下降法是完全一样的，这也是《机器学习实战》中采用梯度上升法的原因。

3.4 梯度下降过程向量化

关于θ更新过程的vectorization，Andrew Ng的课程中只是一带而过，没有具体的讲解。

《机器学习实战》连Cost函数及求梯度等都没有说明，所以更不可能说明vectorization了。但是，其中给出的实现代码确是实现了vectorization的，图4所示代码的32行中weights（也就是θ）的更新只用了一行代码，直接通过矩阵或者向量计算更新，没有用for循环，说明确实实现了vectorization，具体代码下一章分析。

文献[3]中也提到了vectorization，但是也是比较粗略，很简单的给出vectorization的结果为：

机器学习逻辑回归算法推导

且不论该更新公式正确与否，这里的Σ(...)是一个求和的过程，显然需要一个for语句循环m次，所以根本没有完全的实现vectorization，不像《机器学习实战》的代码中一条语句就可以完成θ的更新。

下面说明一下我理解《机器学习实战》中代码实现的vectorization过程。

约定训练数据的矩阵形式如下，x的每一行为一条训练样本，而每一列为不同的特称取值：

机器学习逻辑回归算法推导

约定待求的参数θ的矩阵形式为：

机器学习逻辑回归算法推导

先求x.θ并记为A：

机器学习逻辑回归算法推导

求hθ(x)-y并记为E：

机器学习逻辑回归算法推导

g(A)的参数A为一列向量，所以实现g函数时要支持列向量作为参数，并返回列向量。由上式可知hθ(x)-y可以由g(A)-y一次计算求得。

再来看一下（15）式的θ更新过程，当j=0时：

机器学习逻辑回归算法推导

同样的可以写出θj，

机器学习逻辑回归算法推导

综合起来就是：

机器学习逻辑回归算法推导

综上所述，vectorization后θ更新的步骤如下：

（1）求A=x.θ；

（2）求E=g(A)-y；

（3）求θ:=θ-α.x‘.E,x‘表示矩阵x的转置。

也可以综合起来写成：

机器学习逻辑回归算法推导

前面已经提到过：1/m是可以省略的。

机器学习逻辑回归逻辑函数算法 em

安科网

机器学习逻辑回归算法推导

PeterHuang0

1.引自https://www.cnblogs.com/bnuvincent/p/9695666.html

2. 基本原理

3. 具体过程

3.1 构造预测函数

3.2 构造Cost函数

3.3 梯度下降法求J(θ)的最小值

3.4 梯度下降过程向量化

PeterHuang0

相关推荐

关于机器学习算法的16个技巧

选择困难终结者：不同问题之下的机器学习算法

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

PeterHuang0