大咖丨IBM首席数据官：高效的数据科学团队如何建设

CSDN云计算

2018-01-10

大咖丨IBM首席数据官：高效的数据科学团队如何建设

作者：Seth Dobrin、 IBM Analytics

编译：周佳玉、Shan LIU、魏子敏

数据科学是一项团队活动。这一点不仅基于我们IBM内部的工作经验，对于那些经常向我们咨询应如何在自己的组织内组建数据科学团队的企业客户也同样适用。

然而在此之前要记住，对于一个数据科学项目，其所需的各种技能都是非常罕见和独特的。因此我们需要确保团队中的每个成员都能专注于他们自己最擅长的事情。

数据科学项目的角色分配、以及每个角色所需的技能如下表所示：

大咖丨IBM首席数据官：高效的数据科学团队如何建设

角色分配	角色职能	所需技能
产品所有者	定义问题并建立一个假设	具备负责产品的专业知识
数据工程师	获取、转换并清洗数据	擅长数据工程
数据科学家 a、机器学习工程师 b、决策优化工程师	建立预测和/或规定模型	擅长机器学习或决策优化
数据记者	传达结果	会编辑数据新闻、网站开发

虽然每个角色分配都是明确的，但每个团队成员都必须具备T形技能——这意味着他们不仅需要深入自己的角色，而且还要粗略理解相邻角色。

下面让我们更深入地探索上述图表中的四个角色。

产品所有者

产品所有者是所负责产品的主题专家，他们对特定的业务部门及其相应关心的问题有深入的了解。在一些情况下，产品所有者将主要负责业务方面，他们也定期与数据科学团队合作以解决特定的数据科学等一系列问题，然后再回到更宏观的主题专家角色上去。

事实上，回到原始角色是数据科学团队的一个好处。这意味着产品所有者作为模型的最终用户，可以提供具体的反馈和请求。这也意味着产品所有者可以从业务部门本身提倡数据科学。

产品所有者主要负责：

定义业务问题并与数据科学家合作来定义工作假设
根据需要帮助查找以及管理数据
代理和解决数据质量问题

数据工程师

数据工程师是将所有数据移动到重心并通过服务和消息队列连接数据的向导。他们还通过构建API以使数据可用于企业，他们负责将数据设计到最适合团队需求的平台上。作为一位数据工程师，需要具备下面三大技能：

熟练掌握以下至少三种语言：Python，Scala，Java，Ruby，SQL
熟练使用和构建REST API
能熟练的将预测和规范模型整合到应用程序和流程中

数据科学家

数据科学家往往指的是两个不同的角色之一：机器学习工程师和决策优化工程师。由于市场条件导致“数据科学家”成为相当热门的角色，所以做出这种区分可以帮助消除理解上的困惑。

机器学习工程师

机器学习工程师需要建立机器学习模型，也即识别每个模型中使用的重要数据元素及其特征。他们确定要使用哪种类型的模型，并测试这些模型的准确性和精度；他们还负责模型的长期监测和维护。他们需要这三大技能：

应用概率和统计的培训和经验
具有数据建模和评估经验，对有监督和无监督机器学习有深入的理解
能在以下至少两种语言中进行编程：Python，R，Scala，Julia或Java，其中偏好Python专业知识

决策优化工程师

决策优化工程的技能和经验与机器学习工程师重叠，但也有一些重要的差异。决策优化工程师需要这三大技能：

具备通过应用数学建模和/或约束规划的经验解决一系列行业问题的能力
熟练的Python编程技巧，具备将预测模型应用于决策优化问题的能力
具有建立蒙特卡罗模拟/优化进行假设情景分析的经验

数据记者

接下来是数据记者，他们在推动数据的背景下呈现模型输出，并且可以清楚地表达业务问题。成为一名数据记者，我们寻找这三大技能：

具备Python、Java或Scala编码技能
具备在业务问题的背景下整合数据、预测模型和预定性模型输出的相关经验
熟练掌握数据解析、抓取和纠错

如果你能把一个拥有这些基本技能的团队聚集在一起，并且能确保他们相互协作、保持对彼此工作的深刻理解，那么你定将发现你的洞察力和理解能力，可以成为你领导任何组织的超强动力。

但是如果没有他们，你将会迷失方向。

Seth Dobrin是IBM Analytics的副总裁兼首席数据官。

原文链接：

https://venturebeat.com/2017/12/22/how-ibm-builds-an-effective-data-science-team/amp/?from=singlemessage&isappinstalled=0

科学大数据 ibm td

CSDN云计算

0 关注 0 粉丝 0 动态

相关推荐

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

回归根基：5篇必读的数据科学论文，帮你保持领先地位

谷歌研究团队提供了在创建数据科学工作流时要避免的反模式的明确说明。这篇论文把技术债的隐喻从软件工程借鉴过来，将其应用于数据科学。假设检验的提出早于计算机的使用。

Evan 2020-10-26

没有完整图时，如何使用图深度学习？

流形学习，自 2000 年在著名的科学杂志《Science》被首次提出以来，已成为信息科学领域的研究热点。可能很多人会问，流形学习有什么用呢？首先流形学习可以作为一种数据降维的方式，第二，流形能够刻画数据的本质。其主要代表方法有等距映射、局部线性嵌入等。那

GBAEagle 2020-10-16

100天学习计划 | 一份详实的数据科学指南

本文转自雷锋网，如需转载请至雷锋网官网申请授权。如果是，那你来对地方了。我遇到过许多对学习数据科学充满热情的人，但仅仅几周后，他们就放弃了学习。我想知道为什么一个人对一个领域如此热情却不去追求它？通过与他们中的一些人交谈，我了解到人们放弃学习的主要原因是：

小海 2020-10-11

可编程的磁驱动软体机器人来了！Science 子刊：背后原理19世纪末提出

本文转自雷锋网，如需转载请至雷锋网官网申请授权。自然界中，鲜花随风飘动。实验室里，科学家们也做出了类似效果。按照这一思路，由磁场驱动的可编程软体机器人也被设计了出来。这一机器人背后的团队是一组来自马克斯 · 普朗克智能系统研究所物理智能部门、卡耐基梅隆大学

kkkmmmjjjj 2020-09-28

会机器学习就够了？下一代数据科学家群体走向“全栈”！

数据科学一直是个引人注目的领域，尤其是对于那些有计算机科学、统计、业务分析、工程管理、物理、数学等学科背景的年轻人。但雾里看花始终看不清晰，人们总是认为数据科学背后有许多神秘的地方，觉得它不仅仅是机器学习和统计。除了研究助理和实习之外，没有任何全职行业经验

qiujiahao 2020-09-15

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。在过去的十年里，机器学习确实取得了巨大的突破，计算机视觉与语言处理方面也因此出现了许多改变世界的重要应用。她认为，造成这一现象的一个关键因素在于：机器人学习的数据只能通过在现实世界的操作中获得，成本非常高昂。

码农的小得小感 2020-09-02

终于有人把AI、BI、大数据、数据科学讲明白了

在当今这个数字世界里，脱离数字的生活虽然不是不可接受的，但也需要巨大的牺牲精神和不可思议的毅力才能忍受。事实上，存储的信息，或者数据，就是以一种可用的编码方式，为了我们可计算的目的而建立的真实世界的模型。数据是真实世界中所发生事情的持续记录或“模型”，这一

星月情缘 2020-08-17

给毕业生：你应该选机器学习还是数据科学？

随着数据科学行业自 2013 年以来的爆炸式流行，该行业一直不断地朝着更宽泛的方向发展，但同时也逐渐出现了更具体的职业角色分化。本文首先分析了数据科学行业的总体发展趋势，然后深入地比较了机器学习领域中几个不同名称的职位的职能，对寻找数据科学和机器学习类工

quanjingvr 2020-08-12

这5个Python库太难搞！每位数据科学家都应该了解

本文转载自公众号“读芯术”。Python之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系统密不可分，这些强大的库让Python保持着生命力和高效力。作为数据科学家免不了会使用一些Python库用于项目和研究，除却那些常见的库，还有很多库

higher0 2020-08-11

年中盘点：2020年炙手可热的10家数据科学和机器学习初创公司

在企业能够利用大数据的优势之前，数据科学家和开发人员必须准备和组织好数据，并开发底层的机器学习算法和预测模型，以支持分析师和IT从业者使用的商业智能应用。从传统上说，这是一个非常耗时的过程，但是有很多数据科学、机器学习和人工智能平台可以自动化地完成其中大部

snmplink 2020-06-21

数据科学的现在与未来

数据科学是截至近年来技术领域中很具热度的方向之一。如果您拥有数据科学或者相关专业的工作经验及学位，那么只要大笔一挥、简历一发，一份薪酬可观的职位就会应手而得。但是，数据科学家能成为AI领域的长青树吗?或者说，几年之后围绕数据科学出现的这股热流终将消退?在日

wangpaiyonghu 2020-06-18

ch1-数据科学概述

分布式机器学习：将原本在一台机器上运行的模型，改写成能在多台机器上并行运行；

CYJ0go 2020-06-18

入数据科学大坑，我需要什么样的数学水平？

作为一门基础性学科，数学在数据科学和机器学习领域都发挥着不可或缺的作用。数学基础是理解各种算法的先决条件，也将帮助我们更深入透彻地了解算法的内在原理。所以，本文作者阐释了数据科学和机器学习为何离不开数学，并提供了统计学与概率论、多变量微积分、线性代数以及优

秒懂数学 2020-06-17

18个值得推荐的学习Python和SQL的数据科学平台

数据科学是当今市场上最热门的职业之一。公司一直在聘用数据科学家，并且总是有很多人试图成为一名科学家。但是，数据科学的发展不及其他技术学科那么长，因此与软件开发不同的是，没有专门针对数据科学的学习平台来帮助有抱负和经验丰富的科学家培养。当然有Coursera

Kelovemn的记录 2020-06-10

科学提升认知方法之贝叶斯公式

在我眼中，贝叶斯公式就是统计学走向机器学习的起点。这个就是贝叶斯公式，相当简洁。说到贝叶斯，必然离不开条件概率。条件概率是频率统计思维，通过已知的信息去计算事件出现概率，我们称之为正向概率；贝叶斯公式反其道而行之，通过实验结果去反推出现实验结果的原因，我们

computermaths 2020-06-03

《非线性科学中的现代数学方法：综述》

本文是作者作为数理经济学博士毕业后，对于自己在数学领域多年所学的一个总结，力图在极度繁杂的数理知识体系中摘选出那些最广泛应用的核心工具及思想。本文主要关注的问题都是非线性的、动态的。具体地讲，主要涉及的是：微分动力系统、泛函的最优化初步（但不涉及最优控制及

computermaths 2020-05-31

2020年值得关注的20大机器学习和数据科学网站

当今最进步，最前沿，最令人兴奋的……数据科学和机器学习是当今那些非常有吸引力且热门，热门，超级热门的领域。我每天都看到疯狂的信息流，但是不幸的是，有很多虚假或毫无价值的东西，尤其是关于数据科学和机器学习的东西。无论是对于专业人士还是业余爱好者，Reddit

gyunwh 2020-05-20

终于有人把数据科学、机器学习和人工智能讲明白了

例如组建一个三人团队，其中一个人有MBA背景，一个是统计学家，另一个是机器学习或软件工程师，当然团队还可以包括数据工程师。在这两种情况下，不需要显性编程绝对关键，而且实际上是机器学习要理解的最为重要的方面。在机器学习出道之前，假设您是负责创建预测模型的程序

randy0 2020-05-18

Science子刊：人脑存在加速学习机制，算力赛过最新AI算法

机器学习和深度学习算法的起源，是连接大脑中神经元的突触强度的学习机制，它越来越多地影响着当代生活的几乎所有方面。但是，从那时起，实验神经科学并未直接推动机器学习领域的发展，两个学科一直在相互独立并行发展。在今天发表在《科学报告》的一篇文章中，研究人员称，他

lirika 2020-04-24

CSDN云计算

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号