机器学习:选择机器学习模型

您选择的机器学习算法取决于数据的大小,质量和类型,以及项目时间表和总体目标。选择适当的机器学习算法,有助于从结果预测中获得的洞察力。

以下是开始机器学习项目时需要考虑的一些注意事项:

  • 准确性:项目的目标是确定最准确的结果还是近似值满足您的项目需求?近似输出可以减少处理时间并保持大型数据集的高性能。
  • 训练时间:所需的训练时间量因机器学习算法而异,也可能因所需的准确度而异。
  • 线性:许多机器学习算法假设输入数据是线性的,这意味着这些模型将假设数据分类可以沿直线分开,或者数据遵循线性趋势。可以快速训练线性模型,但如果数据集实际上遵循非线性趋势,则假设基础数据是线性的可能导致精度降低。
  • 特征:特征是数据集的属性(将其视为电子表格中的列标题),大量特征也会影响机器学习模型的性能。

机器学习算法的类型

在考虑了数据属性以及项目要求和目标后,您可以开始将这些需求映射到最佳机器学习模型。可以在下面找到几种不同类型的机器学习算法的描述:

线性回归

线性回归是一种受欢迎且经过充分研究的模型,可以快速训练,使其成为机器学习项目的良好起点。该算法可以提供准确的预测,但它假设数据线性(因此这可能不是非线性数据集的最佳模型)。如果可能且适合项目,应从数据集中删除异常值以提高速度和性能。线性回归模型将以连续的比例提供结果输出。

Logistic回归

机器学习:选择机器学习模型

与线性回归类似,逻辑回归通常可以快速训练并提供高度准确的结果,尤其是在移除不相关的特征或数据异常值时。与线性回归不同的是,使用逻辑回归模型得到的结果是使用非线性函数进行离散分类(即真或假、垃圾邮件或非垃圾邮件),而不是提供连续的结果。

决策树

机器学习:选择机器学习模型

决策树模型具有表示各个变量的决策节点。这些决策节点分成另一个决策节点和叶节点或两个叶节点。叶节点代表决策的结果。这些输出用于进行未来预测。决策树模型几乎不需要数据准备,可以准确预测各种结果。

Bagging和随机森林

Bagging是一种基于训练数据集的多个样本的多个模型(通常是决策树)创建平均值的技术。所有模型都会运行新数据,并对预测进行平均,以提高输出精度。Bagging专注于最佳结果,而Random Forest使用随机性从决策节点生成次优分割。结合Bagging和随机森林模型的预测可以更好地估计真实的产出值,从而提高项目的准确性。

人工神经网络

机器学习:选择机器学习模型

人工神经网络是在人脑中学习后建模的。该技术可以用于复杂的模式识别。人工神经网络创建节点连接,通过一个到多个隐藏层将输入映射到输出。这在非线性环境中创建了复杂的特征检测器,用于识别通过人工分析无法预测的隐藏模式。

最后

没有一种机器学习算法能解决所有问题。您的项目目标和可用数据影响机器学习的最佳方法。顾问可以帮助指导您完成目标设定过程,以更好地确定机​​器学习模型以实现该目标。他们可以确定数据质量等潜在问题,并提出解决方案和实施方案以克服挑战。

相关推荐