您需要针对机器学习性能进行优化的6个指标

lirika

2020-07-14

关注关注

有许多指标可用来衡量模型的性能，具体取决于您要进行的机器学习的类型。在本文中，我们将研究分类和回归模型的性能指标，并讨论哪种指标可以进行更好的优化。有时要看的指标会根据最初要解决的问题而有所不同。

机器学习指标的示例

分类问题的优化

分类表示例

1.真实肯定(召回)

真实肯定率(也称为召回率)是二进制/非二进制分类问题中的首选性能指标。在大多数情况下(即使不是所有时间)，我们只对正确预测一个类感兴趣。例如，如果您正在预测糖尿病，则比起预测此人没有糖尿病，您将更关心预测此人是否患有糖尿病。在这种情况下，阳性类别为"此人患有糖尿病"，阴性类别为"此人未患有糖尿病"。这只是预测肯定类别的准确性(这不是准确性性能指标。有关更多详细信息，请参见下面的数字4)

2. ROC曲线(接收机工作特性曲线)

ROC曲线显示分类模型在不同阈值(分类到特定类的可能性)下的性能。它绘制了真假阳性率和假阳性率。降低阈值将增加您的真实肯定率，但会牺牲您的错误肯定率，反之亦然。

3. AUC(曲线下面积)

AUC也称为" ROC曲线下的面积"。简单地说，AUC会告诉您正确分类的可能性。较高的AUC代表更好的模型。

4.准确性

默认情况下，精度是第一要注意的事情。但是，真正的数据科学家知道准确性太误导了。一种更好的称呼方法是预测所有类别的平均准确性。就像我在True True Rate中提到的那样，它是最理想的指标。准确度将取"真正值"和"真负值"之和的平均值。在不平衡分类问题中，大多数情况下，否定类比肯定类的代表更多，因此您更有可能具有很高的真实否定率。然后，准确度将偏向负面类别的准确预测，这可能不会引起任何人的兴趣。

机器学习中的回归优化

回归图示例

5.错误

该错误通常会在R旁边被忽略，它告诉我们更多有关拟合值相对于回归线(即拟合值与优秀拟合线之间的平均距离)的精度的信息。在计算模型的置信度和预测间隔时，这一点尤为重要。由于使用响应变量的自然单位，因此更易于解释，而R没有单位，并且仅在0到1之间。

误差有不同类型，例如"均值绝对误差"和"均方根误差"。每种误差都有其优缺点，必须单独对待以评估模型。

6. R2

现在，尽管"标准误差"很重要，但R已成为良好回归模型的实际度量。它告诉我们模型解释了因变量和自变量之间的差异。较高的R会给出更好的模型，但是，如果过高(接近99%)有时会导致过度拟合的风险。由于相关性与因果关系的争论可能会给R带来不合逻辑的高R，因此R可能会产生误导。

机器学习

安科网

您需要针对机器学习性能进行优化的6个指标

lirika

lirika

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

lirika