数据科学/机器学习中的线性回归问题

线性回归是回归问题的简单机器学习模型,即目标变量是实际值时。

例:

让我们从一个例子开始 - 假设我们有一个关于房屋面积(以平方英尺为单位)及其价格(以千美元计)的信息的数据集,我们的任务是建立一个机器学习模型,它可以预测给定的价格区。这是我们的数据集的样子

数据科学/机器学习中的线性回归问题

如果我们绘制数据,我们可能会得到类似于以下内容的内容:

数据科学/机器学习中的线性回归问题

让我们深入了解线性回归来理解它,

线性回归是线性模型,例如假设输入变量(x)和单个输出变量(y)之间呈线性关系的模型。更具体地说,y可以由输入变量(x)的线性组合来计算。

当有单个输入变量(x)时,该方法被称为简单线性回归。

当有多个输入变量时,该方法称为多元线性回归。

简单的线性回归

在简单线性回归中,我们通过拟合称为回归线的线来建立目标变量和输入变量之间的关系。

一般来说,一条线可以用线性方程y = m * X + b表示。其中,y是因变量,X是自变量,m是斜率,b是截距。

在机器学习中,我们将方程改写为y(x)= w0 + w1 * x其中w是模型的参数,x是输入,y是目标变量。w0和w1的不同值会给我们不同的线条,如下所示

数据科学/机器学习中的线性回归问题

多元线性回归

当我们有一个输入变量(也称为特征)时,可以使用上面的等式。但是,一般来说,我们通常处理具有多个输入变量的数据集。我们有多个特征的情况称为多重线性回归,或简单地说,是线性回归。我们可以将我们以前的简单线性回归方程推广到多元线性回归:

数据科学/机器学习中的线性回归问题

在多元线性回归的情况下,不是我们的预测是2维空间中的线,而是n维空间中的超平面。例如,在3D中,我们的图形如下所示

数据科学/机器学习中的线性回归问题

成本函数

权重的不同值(w0,w1,w2,... wn)给我们提供了不同的线条,我们的任务是找到我们最适合的权重。您可能会遇到的一个问题是,我们如何确定特定线路适合我们的数据的程度?或者,给出两行,我们如何确定哪一个更好?为此,我们引入一个成本函数来衡量,给定w的特定值,y与对应的y的值有多接近。也就是说,一组特定的权重如何预测目标值。

对于线性回归,我们使用均方误差成本函数。它是预测值y(x)与目标值ytrue之间误差平方的各个数据点(xi,yi)的平均值。

数据科学/机器学习中的线性回归问题

残差

成本函数基于真实目标与预测目标之间的距离(在图中示为采样点与回归线之间的线)定义成本,也称为残差。残差显示在下方,

数据科学/机器学习中的线性回归问题

如果一条特定的线远离所有的点,则残差会更高,成本函数也会更高。如果一条线靠近这些点,残差将很小,因此成本函数。

进一步使用渐变下降法,从许多可能的模型中找出最佳模型的过程称为优化。

相关推荐