Data Science pipeline概述
本文主要介绍典型数据科学管道中所期望的内容。从构建业务问题到创建可执行的见解。
解决任何数据科学问题的初始点是首先提出要求数据解决的问题。
例如 -
您从网上调查、老客户反馈、历史采购订单、历史投诉、过去危机等方面收集数据。
现在,使用这些不同的数据,您可能会要求您的数据回答以下问题?
您可以根据数据提出更多问题,获得更多洞察力。这就是您自己的数据如何展现隐藏的知识,这些知识有可能完全改变您的业务。
下图描绘了解决任何数据科学问题的典型管道。
数据科学管道
- 获取数据
- 准备/清理数据
- 探索/可视化数据
- 数据建模
- 解释调查结果
- 重新访问/更新您的模型
获取数据
没有数据,数据科学无法回答任何问题。因此,最重要的是获取数据,而不仅仅是“真实可靠的数据”。
根据经验,在获取数据时必须进行严格的检查。现在,收集所有可用的数据集(可以来自internet或外部/内部数据库/第三方),并将其数据提取为可用的格式(csv, json, xml等)
从内部/外部来源收集数据
准备/清理您的数据
这一阶段的管道非常耗时和费力。大多数情况下,数据都有自己的异常情况,比如缺少的参数、重复的值、不相关的特征等等。因此,我们进行清理工作变得非常重要,只获取对问题重要的信息。因为机器学习模型的结果和输出只和你投入的一样好。
目标应该是彻底检查数据,以了解您正在使用的数据的每个特征,识别错误,填写数据漏洞,删除重复或损坏的记录,有时丢弃整个特征等。在这个阶段,领域水平的专业知识对任何特征或价值的影响都至关重要。
数据预处理阶段
工具包包括:
- 编码语言:Python,R
- 数据修改工具:Python库,Numpy,Pandas,R
- 分布式处理:Hadoop,Map Reduce / Spark
探索/可视化数据
在可视化阶段,您应该尝试找出数据的模式和值。您应该使用不同类型的可视化和统计测试技术来支持您的发现。在这里,您的数据将开始通过各种图表和分析揭示隐藏的秘密。在这个阶段,需要领域级别的专门知识来充分理解可视化及其解释。
目标是通过可视化和图表找出模式,这也将导致特征提取步骤使用统计来识别和测试重要变量。
使用Tableau的数据可视化示例
数据建模(机器学习)
机器学习模型是通用工具。您可以访问许多工具,算法并使用它们来实现不同的业务目标。您使用的特征越多,您的预测能力就越好。在清理数据并找出对于给定业务问题最重要的特征之后,使用相关模型作为预测工具将增强业务决策。
这样做的目的是进行深入分析,主要是创建相关的机器学习模型,如预测模型/算法,以回答与预测相关的问题。
第二个重要目标是评估和完善您自己的模型。这涉及多个评估和优化周期。任何机器学习模型在第一次尝试时都不能是最好的。您必须通过对新数据进行训练,最大限度地减少损失等来提高其准确性。
模型选择,训练,评估和调整
可以使用各种技术或方法来评估模型的准确性或质量。评估机器学习算法是数据科学管道的重要组成部分。当使用一个指标(比如accuracy_score)进行评估时,您的模型可能会给出令人满意的结果,但如果使用其他指标(如对数损失或任何其他此类指标)进行评估,则可能会得到较差的结果。使用分类精度来衡量模型的性能是一种标准的方法,但是这还不足以真正判断一个模型。
因此,在您应该测试多个模型的性能,错误率等,并根据您的业务问题考虑最佳选择。
一些常用的方法是
- 分类准确性
- 对数损失
- 混淆矩阵
- 曲线下面积
- F1得分
- 平均绝对误差
- 均方误差
工具包包括:
- 机器学习:监督/非监督算法
- 评估方法
- 机器学习库:Python(Sci-kit Learn,NumPy)
- 线性代数和多元微积分
解释调查结果
解释数据更像是将您的发现传达给感兴趣的各方。如果你无法向别人解释你的发现,相信我你所做的一切都是没有用的。因此,这一步变得非常关键。
此步骤的目标是首先确定业务洞察力,然后将其与您的数据结果相关联。您可能需要让领域专家将调查结果与业务问题相关联。领域专家可以帮助您根据业务维度可视化您的发现,这也有助于向非技术受众传达事实。
工具包包括:
- 业务领域知识
- 数据可视化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn
- 沟通:演讲/演讲和报道/写作
重新访问您的模型
在您的模型投入生产时,根据您接收新数据的频率或根据业务性质的变化,定期重新访问和更新您的模型变得非常重要。您收到的数据越多,更新的频率就越高。
事实上,您将面临的大多数问题都是工程问题。即使拥有良好的机器学习的所有资源,大部分影响将来自强大的特征,而不是伟大的机器学习算法。所以,基本方法是:
- 确保您的管道端到端坚固
- 从合理的目标开始
- 直观地了解您的数据
- 确保您的管道保持稳固