大咖丨IBM首席数据官:高效的数据科学团队如何建设
作者:Seth Dobrin、 IBM Analytics
编译:周佳玉、Shan LIU、魏子敏
数据科学是一项团队活动。这一点不仅基于我们IBM内部的工作经验,对于那些经常向我们咨询应如何在自己的组织内组建数据科学团队的企业客户也同样适用。
然而在此之前要记住,对于一个数据科学项目,其所需的各种技能都是非常罕见和独特的。因此我们需要确保团队中的每个成员都能专注于他们自己最擅长的事情。
数据科学项目的角色分配、以及每个角色所需的技能如下表所示:
角色分配 | 角色职能 | 所需技能 |
产品所有者 | 定义问题并建立一个假设 | 具备负责产品的专业知识 |
数据工程师 | 获取、转换并清洗数据 | 擅长数据工程 |
数据科学家 a、机器学习工程师 b、决策优化工程师 | 建立预测和/或规定模型 | 擅长机器学习或决策优化 |
数据记者 | 传达结果 | 会编辑数据新闻、网站开发 |
虽然每个角色分配都是明确的,但每个团队成员都必须具备T形技能——这意味着他们不仅需要深入自己的角色,而且还要粗略理解相邻角色。
下面让我们更深入地探索上述图表中的四个角色。
产品所有者
产品所有者是所负责产品的主题专家,他们对特定的业务部门及其相应关心的问题有深入的了解。在一些情况下,产品所有者将主要负责业务方面,他们也定期与数据科学团队合作以解决特定的数据科学等一系列问题,然后再回到更宏观的主题专家角色上去。
事实上,回到原始角色是数据科学团队的一个好处。这意味着产品所有者作为模型的最终用户,可以提供具体的反馈和请求。这也意味着产品所有者可以从业务部门本身提倡数据科学。
产品所有者主要负责:
定义业务问题并与数据科学家合作来定义工作假设
根据需要帮助查找以及管理数据
代理和解决数据质量问题
数据工程师
数据工程师是将所有数据移动到重心并通过服务和消息队列连接数据的向导。他们还通过构建API以使数据可用于企业,他们负责将数据设计到最适合团队需求的平台上。作为一位数据工程师,需要具备下面三大技能:
熟练掌握以下至少三种语言:Python,Scala,Java,Ruby,SQL
熟练使用和构建REST API
能熟练的将预测和规范模型整合到应用程序和流程中
数据科学家
数据科学家往往指的是两个不同的角色之一:机器学习工程师和决策优化工程师。由于市场条件导致“数据科学家”成为相当热门的角色,所以做出这种区分可以帮助消除理解上的困惑。
机器学习工程师
机器学习工程师需要建立机器学习模型,也即识别每个模型中使用的重要数据元素及其特征。他们确定要使用哪种类型的模型,并测试这些模型的准确性和精度;他们还负责模型的长期监测和维护。他们需要这三大技能:
应用概率和统计的培训和经验
具有数据建模和评估经验,对有监督和无监督机器学习有深入的理解
能在以下至少两种语言中进行编程:Python,R,Scala,Julia或Java,其中偏好Python专业知识
决策优化工程师
决策优化工程的技能和经验与机器学习工程师重叠,但也有一些重要的差异。决策优化工程师需要这三大技能:
具备通过应用数学建模和/或约束规划的经验解决一系列行业问题的能力
熟练的Python编程技巧,具备将预测模型应用于决策优化问题的能力
具有建立蒙特卡罗模拟/优化进行假设情景分析的经验
数据记者
接下来是数据记者,他们在推动数据的背景下呈现模型输出,并且可以清楚地表达业务问题。成为一名数据记者,我们寻找这三大技能:
具备Python、Java或Scala编码技能
具备在业务问题的背景下整合数据、预测模型和预定性模型输出的相关经验
熟练掌握数据解析、抓取和纠错
如果你能把一个拥有这些基本技能的团队聚集在一起,并且能确保他们相互协作、保持对彼此工作的深刻理解,那么你定将发现你的洞察力和理解能力,可以成为你领导任何组织的超强动力。
但是如果没有他们,你将会迷失方向。
Seth Dobrin是IBM Analytics的副总裁兼首席数据官。
原文链接:
https://venturebeat.com/2017/12/22/how-ibm-builds-an-effective-data-science-team/amp/?from=singlemessage&isappinstalled=0