组建高效数据科学团队的关键是什么？

piaoniu

2019-03-30

组建高效数据科学团队的关键是什么？

数据科学和人工智能如今几乎侵入到了所有行业，因此，组建一支成功构建AI项目的团队至关重要。对复合型“数据科学家”的需求前所未有——他/她是统计学家、程序员和沟通者的完美结合体。

但事实上，失败的案例随处可见。甚至不乏顶级专家团队。那么，一个成功的数据团队所具备的品质有哪些？需要具备什么，才能够帮助商业领袖和高管制定更好的AI策略？

组建高效数据科学团队的关键是什么？

不忘来处

首先，我们要将数据科学视为现有学科的自然演变，而不是全新的学科。毕竟，在计算机时代开始之前，我们就在处理数据。

至少从20世纪60年代开始，人工智能的概念就已经存在，像数据库知识发现、决策支持系统、商业智能、数据挖掘、分析、预测分析等其他学科，也存在很长时间了。任意一科的目标都是从数据中提取有意义的模式，并利用这些模式获得见解，为将来做决策。

数据科学是这一趋势的最新体现，这一趋势是由我们在互联网时代可以获得大量和多样的数据所推动的。通过相对廉价的计算能力和新的机器学习算法去利用丰富的数据，进一步推动这一趋势。新算法的复杂性和数学难度的增加，激增了掌握算法的高学历人才的需求，因此，AI竞赛开始了。

尽管这项技术很新颖，但我们仍可以从旧学科的探索和实践中学习。

CRISP-DM（数据挖掘流程规范）

CRISP-DM是最容易、最经常被忽视的标准，它是一个用于构建分析项目的工业流程，这些分析项目自20世纪90年代以来就一直存在。

主要想法是将项目分析划分为若干个定义明确的阶段，包括业务理解、数据理解、数据准备、建模、评估和部署。

组建高效数据科学团队的关键是什么？

照片来自：Luminus

虽然这个过程有缺点，而且标准还未更新，但这六个阶段仍然有用。每个专业数据人员都应该阅读并理解这些阶段。

团队数据科学流程（TDSP）

数据科学是一个基本的迭代过程，CRISP-DM的主要缺点就是没有很好地结合这一点。

TDSP是Microsoft一个现代的数据科学生命周期流程，它改进了旧方法。设想一下，CRISP-DM在云处理时代得到一个定制的敏捷开发改造会发生什么。

组建高效数据科学团队的关键是什么？

照片来自: Microsoft

公司可能会根据你的工作量身定制自己的流程，但了解这些基础流程的确很有帮助。

秘诀所在？

好吧，这是个棘手的问题。不少公司经常在拥有最新最好的算法和计算处理器的同时，却把数据视为理所当然。可能我们有大量数据可用，但数据的质量不是特定的。优质的数据仍难以收集，因此这才可能是你的主要竞争优势。除非你提供优质的数据，否则最好的算法也无法保证优质的模型。正如他们所说——垃圾进，垃圾出。

人工智能最容易被忽视的一个方面是，大多数算法都是通过开源软件或云提供商以极低的成本免费提供的。在某种程度上，AI算法已经或将要通过这些库和服务，实现商品化。

我们的建议是：首先，将数据科学路线图分解为每个人都同意并可以在一周内实现的简单案例。同时，确保数据可获得，明确定义ROI和/或可交付成果，并且使数据团队遵循迭代的执行过程。

在几个周期的学习后，你将能够更好地处理更复杂和风险更高的案例。

组建高效数据科学团队的关键是什么？

顶尖团队

如何创建一个数据团队来执行任务？换句话说，正确的团队构成是什么样子的？

组建高效数据科学团队的关键是什么？

照片来自：Hudson UK

我们并不指望医生知道每一种疾病疗法或诊断，同样，我们也不应指望有人掌握AI的所有内容。我们必须有专家了解自身的技能和责任界限，并能与他人合作。当然，这并不意味着人不能在多领域都表现出色，或是多面手，就像我们在医学上也有全科医生一样。在很大程度上，数据科学是项团队运动。

组建高效数据科学团队的关键是什么？

照片来源: Business Science

因为数据是任何数据科学战略中最重要的部分，你需要的第一批人才是数据工程师。数据工程师通常是具有良好编程和硬件技能的人员，可以构建出你的数据基础架构。这取决于你的数据大小，但工程师们擅长使用大数据和云技术，知道如何构建数据管道，设计数据库以及从中提取数据。他们也知道如何查看基础数据，如何聚合数据的质量以进行健全性检查，但他们不一定是分析数据的专家。

在构建了数据基础架构之后，你需要一些能够获取数据、清理数据、分析数据、在基础架构上运行试验并传达实验结果的人员，具体的技能取决于你的业务需求。大部分时间，这项工作由数据分析师完成，他们擅长处理和清理数据，创建统计推断或预测模型，运行实验，绘制结果，创建报告以及向更高层的利益相关者提供见解。分析师们主要在Jupyter笔记本或Rstudio工作，并结合编程、统计和机器学习知识。因此，我们不应指望他们编写生产质量代码。

这就出现了接下来的角色。如果你正在构建数据产品，你就需要团队中拥有机器学习工程师。这些人不是构建机器学习算法的研究人员，而是熟悉各种数据科学库的数据聚焦软件开发人员，他们知道如何根据分析师开发的模型编写生产质量代码。要完成这项工作，必须与数据工程师密切合作，或者也可以由精通数学的数据工程师为小型团队去完成。对大多数希望进入数据科学领域的开发人员而言，这是很棒的职业选择。

有时候，拥有一个更注重设计的数据可视化专家，来创建高度优化的图表和报告以传达分析结果，也是有用的。

一个数据科学家应该在上述所有职位中均高于平均水平，并知道如何与领域专家合作以提供结果。这些合作者通常是你的团队或组织之外的人，你可以在诸如医学、金融、经济学、市场营销、法律等案例中利用他们的专业知识。

如果你正在处理需要某些自定义或特定数据科学算法的问题，那你可能需要聘请具有博士或核心研究背景的人员。他们可能对会话AI、计算机视觉、机器人、强化学习、图形模型等AI领域背后的理论和算法有深刻的理解。这类角色通常被称为研究工程师或研究科学家。

数据科学团队中另一个重要但较少提及的角色是数据科学经理或数据科学负责人。对于规模较小的团队而言，拥有一名对团队中所有角色都深入了解的高级成员就足够了。但是，一旦团队成长，你就需要具备强大技术和商业战略背景的人了。

数据科学经理是实践的领导者，他们将构建数据科学战略基础，招募和建立团队，确保每个人的相互沟通，获取需要的数据和信息，并开发整个团队可以跟进的流程。这些经理是数据团队与其他组织成员、协作者和管理人员的接口，把复杂的AI术语翻译成非专用语，确保工作与整体组织战略保持一致。

管理者需要发挥的另一重要作用，是在整个团队中设立数据的治理和道德标准。领域中的大多数专业人员都掌握了工作所需的技能，但很少看到人们谈论关于数据隐私和分析结果的道德沟通的重要性。这会导致像Facebook一样的丑闻，这会让整个领域都声名狼藉。

总的来说，如果我们始终保持简单的策略，在合适的时间雇用合适的人员，利用以前收集的知识，并开发一个最适合团队和目标的进程，那么团队必定会成为一个有效的数据驱动组织。

组建高效数据科学团队的关键是什么？

大数据关键团队组建

piaoniu

0 关注 0 粉丝 0 动态

相关推荐

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 14评论 2020-10-30

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 5评论 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 13评论 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 11评论 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 9评论 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 15评论 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 12评论 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 15评论 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 15评论 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 14评论 2020-10-31

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

ningwentao 14评论 2020-10-30

piaoniu

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号