如何在机器学习项目中使用统计方法的示例

Evan

2018-07-22

关注关注

摘要： 在本文中，将通过十个实例介绍在机器学习项目中起关键作用的统计学方法。

统计学和机器学习是两个密切相关的领域。两者的界限有时非常模糊，例如有一些明显属于统计学领域的方法可以很好地处理机器学习项目中的问题。事实上，机器学习预测建模项目必须通过统计学方法才能有效的进行。

在本文中，我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。这将证明，统计学的有效知识对解决预测建模问题是必不可少的。

如何在机器学习项目中使用统计方法的示例

1、问题框架

在预测建模问题中，影响最大的可能就是问题框架了。它要对问题类型做不同的选择，例如选择回归或分类，以及问题的输入输出的结构和类型。

问题框架并不总是显而易见的。对于该领域的初入门者，需要对领域的观察发现结果进行深入研究。而对于那些总是从传统角度看待问题的领域专家来说，则需要从多角度考虑数据。

在构思问题框架时统计学方法能够帮助探索数据，包括：

·探索性数据分析：通过总结和可视化探索数据的ad hoc视图。

·数据挖掘：自动发现数据中的结构化关系和模式。

2、数据理解

数据理解意味着要对变量的分布和变量之间的关系有一个深入的了解。这些知识有些来自领域的专业知识，或者需要专业知识来解释。然而，不论是领域专家还是新手都是从这个领域的观察资料中获益。

统计方法的两大分支可用于帮助理解数据：

·汇总统计：该方法使用统计量总结变量之间的分布和关系。

·数据可视化：该方法使用可视化方法（如图解、散点图、曲线图）来总结变量之间的分布和关系。

3、数据清理

通过直接观察发现的成果，往往不能作为最原始的数据。因为尽管数据是数字化的，它还是会受到进程的影响损害数据保真度，并且反过来这些数据还会对下游进程或模型造成影响。

一些例子包括：

·数据损坏。

·数据错误。

·数据丢失。

识别和修复数据问题的过程被称为数据清理。

统计学中有些方法可用来进行数据清理，例如：

·异常点检测：识别分布中远离预期值的异常值。

·归责：修复或填充观察结果中的损坏值或缺失值。

4、数据选择

在建模时，并非所有的观察值或所有的变量都是相关的。

将数据范围不断缩小，直到剩余元素对预测结果最有效的过程称为数据选择。

用于数据选择的两种统计方法为：

·数据样本：系统地从较大数据集中创建小的具有代表性的样本。

·特征选择：自动识别与输出结果最相关的变量。

5、数据准备

通常数据是不能直接用于建模的。所以为了匹配已选好的问题框架或学习算法，要对数据进行一些转换来改变数据的形状或结构。

可使用以下统计方法进行数据准备：

·扩展：如标准化、规范化等方法。

·编码：类似整数编码和热编码的方法。

·变换：类似Box-Cox方法那样的功率转换方法。

6、模型评估

预测建模问题的关键是评估学习方法，当在训练模型中对没见过的数据进行预测时，需要对模型的技能进行评估。这种训练和评估预测模型的过程称为实验设计。

·实验设计：该方法能够通过设计系统实验来比较独立变量对输出结果的影响，如机器学习算法的选择对预测精度的影响。

有些实验设计的方法可以重新采样数据集，从而更经济的使用数据来预估模型技能。

·重采样方法：为了训练和评估预测模型，系统地将数据集分成子集的方法。

7、模型配置

一个给定的机器学习算法通常具有一套超参数，通过超参数实现对特定问题量身定制学习方法。超参数的配置本质上是经验性的而不是分析性的，所以需要大量实验来评估不同超参数值对模型技能的影响。

使用统计的两个子领域之一对不同超参数配置之间的结果进行解释和比较，即：

·统计假设检验：该方法能在给定结果的假设或预期的情况下，量化观察结果的可能性。

·估算统计：能够用置信区间量化结果的不确定性。

8、模型选择

众多机器学习算法中的某一个也许刚好适用于给定的预测建模问题。所以，选择一种方法作为解决方案的过程称为模型选择。这可能会涉及到一套标准，不仅要考虑项目利益相关方，还有对问题评估方法预测技巧的要求。

可以使用与模型配置一样的两类统计方法来解释不同模型的估算技能，即：统计假设检验和估算统计方法，从而实现模型选择。

9、模型表示

一旦最终模型得到训练，那它基于真实数据部署后就可以进行实际预测，并呈现出最终结果。

最终，模型表示的一部分包括展示模型的评估技能。

估计统计领域的一些方法可以通过使用容忍区间和置信区间，达到量化机器学习模型评估技能的不确定性。

·估计统计。该方法通过置信区间量化模型技能的不确定性。

10、模型的预测

最后，是时候使用最终模型对我们不知道的真实结果预测新数据了。预测中非常重要的一部分是量化预测的可信度。

我们可以使用与模型表示一样的估计统计方法来量化这种不确定性。

总结

通过本文，你应该了解到了统计方法在整个预测建模项目过程中的重要性。

本文由阿里云云栖社区组织翻译。

文章原标题《10 Examples of How to Use Statistical Methods in a Machine Learning Project》

作者：Jason Brownlee

译者：奥特曼，审校：袁虎。

文章为简译，更为详细的内容，请查看原文！

机器学习统计学大数据

Evan

0 关注 0 粉丝 0 动态

关注关注

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 2020-10-30

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 2020-11-10

安科网

如何在机器学习项目中使用统计方法的示例

Evan

Evan

相关推荐

为什么所有的机器学习模型有90％从没有投入生产

无监督机器学习的重要指南

需要知识的后深度学习时代，如何高效自动构建知识图谱

数据科学面试中应了解的十种机器学习概念

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

Evan