Data Science pipeline概述

pandazjd

2018-10-21

关注关注

本文主要介绍典型数据科学管道中所期望的内容。从构建业务问题到创建可执行的见解。

Data Science pipeline概述

解决任何数据科学问题的初始点是首先提出要求数据解决的问题。

Data Science pipeline概述

例如 -

您从网上调查、老客户反馈、历史采购订单、历史投诉、过去危机等方面收集数据。

现在，使用这些不同的数据，您可能会要求您的数据回答以下问题?

Data Science pipeline概述

您可以根据数据提出更多问题，获得更多洞察力。这就是您自己的数据如何展现隐藏的知识，这些知识有可能完全改变您的业务。

下图描绘了解决任何数据科学问题的典型管道。

Data Science pipeline概述

数据科学管道

获取数据
准备/清理数据
探索/可视化数据
数据建模
解释调查结果
重新访问/更新您的模型

获取数据

没有数据，数据科学无法回答任何问题。因此，最重要的是获取数据，而不仅仅是“真实可靠的数据”。

根据经验，在获取数据时必须进行严格的检查。现在，收集所有可用的数据集(可以来自internet或外部/内部数据库/第三方)，并将其数据提取为可用的格式(csv, json, xml等)

Data Science pipeline概述

从内部/外部来源收集数据

准备/清理您的数据

这一阶段的管道非常耗时和费力。大多数情况下，数据都有自己的异常情况，比如缺少的参数、重复的值、不相关的特征等等。因此，我们进行清理工作变得非常重要，只获取对问题重要的信息。因为机器学习模型的结果和输出只和你投入的一样好。

目标应该是彻底检查数据，以了解您正在使用的数据的每个特征，识别错误，填写数据漏洞，删除重复或损坏的记录，有时丢弃整个特征等。在这个阶段，领域水平的专业知识对任何特征或价值的影响都至关重要。

Data Science pipeline概述

数据预处理阶段

工具包包括：

编码语言：Python，R
数据修改工具：Python库，Numpy，Pandas，R
分布式处理：Hadoop，Map Reduce / Spark

探索/可视化数据

在可视化阶段，您应该尝试找出数据的模式和值。您应该使用不同类型的可视化和统计测试技术来支持您的发现。在这里，您的数据将开始通过各种图表和分析揭示隐藏的秘密。在这个阶段，需要领域级别的专门知识来充分理解可视化及其解释。

目标是通过可视化和图表找出模式，这也将导致特征提取步骤使用统计来识别和测试重要变量。

Data Science pipeline概述

使用Tableau的数据可视化示例

数据建模（机器学习）

机器学习模型是通用工具。您可以访问许多工具，算法并使用它们来实现不同的业务目标。您使用的特征越多，您的预测能力就越好。在清理数据并找出对于给定业务问题最重要的特征之后，使用相关模型作为预测工具将增强业务决策。

这样做的目的是进行深入分析，主要是创建相关的机器学习模型，如预测模型/算法，以回答与预测相关的问题。

第二个重要目标是评估和完善您自己的模型。这涉及多个评估和优化周期。任何机器学习模型在第一次尝试时都不能是最好的。您必须通过对新数据进行训练，最大限度地减少损失等来提高其准确性。

Data Science pipeline概述

模型选择，训练，评估和调整

可以使用各种技术或方法来评估模型的准确性或质量。评估机器学习算法是数据科学管道的重要组成部分。当使用一个指标(比如accuracy_score)进行评估时，您的模型可能会给出令人满意的结果，但如果使用其他指标(如对数损失或任何其他此类指标)进行评估，则可能会得到较差的结果。使用分类精度来衡量模型的性能是一种标准的方法，但是这还不足以真正判断一个模型。

因此，在您应该测试多个模型的性能，错误率等，并根据您的业务问题考虑最佳选择。

一些常用的方法是

分类准确性
对数损失
混淆矩阵
曲线下面积
F1得分
平均绝对误差
均方误差

工具包包括：

机器学习：监督/非监督算法
评估方法
机器学习库：Python（Sci-kit Learn，NumPy）
线性代数和多元微积分

解释调查结果

解释数据更像是将您的发现传达给感兴趣的各方。如果你无法向别人解释你的发现，相信我你所做的一切都是没有用的。因此，这一步变得非常关键。

此步骤的目标是首先确定业务洞察力，然后将其与您的数据结果相关联。您可能需要让领域专家将调查结果与业务问题相关联。领域专家可以帮助您根据业务维度可视化您的发现，这也有助于向非技术受众传达事实。

工具包包括：

业务领域知识
数据可视化工具：Tablaeu，D3.JS，Matplotlib，GGplot，Seaborn
沟通：演讲/演讲和报道/写作

重新访问您的模型

在您的模型投入生产时，根据您接收新数据的频率或根据业务性质的变化，定期重新访问和更新您的模型变得非常重要。您收到的数据越多，更新的频率就越高。

Data Science pipeline概述

事实上，您将面临的大多数问题都是工程问题。即使拥有良好的机器学习的所有资源，大部分影响将来自强大的特征，而不是伟大的机器学习算法。所以，基本方法是：

确保您的管道端到端坚固
从合理的目标开始
直观地了解您的数据
确保您的管道保持稳固

科学 data

安科网

Data Science pipeline概述

pandazjd

获取数据

准备/清理您的数据

探索/可视化数据

数据建模（机器学习）

解释调查结果

重新访问您的模型

pandazjd

相关推荐

数据科学面试中应了解的十种机器学习概念

回归根基：5篇必读的数据科学论文，帮你保持领先地位

没有完整图时，如何使用图深度学习？

100天学习计划 | 一份详实的数据科学指南

可编程的磁驱动软体机器人来了！Science 子刊：背后原理19世纪末提出

会机器学习就够了？下一代数据科学家群体走向“全栈”！

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

终于有人把AI、BI、大数据、数据科学讲明白了

给毕业生：你应该选机器学习还是数据科学？

这5个Python库太难搞！每位数据科学家都应该了解

年中盘点：2020年炙手可热的10家数据科学和机器学习初创公司

数据科学的现在与未来

ch1-数据科学概述

入数据科学大坑，我需要什么样的数学水平？

18个值得推荐的学习Python和SQL的数据科学平台

科学提升认知方法之贝叶斯公式

《非线性科学中的现代数学方法：综述》

2020年值得关注的20大机器学习和数据科学网站

终于有人把数据科学、机器学习和人工智能讲明白了

Science子刊：人脑存在加速学习机制，算力赛过最新AI算法

pandazjd