对话第四范式胡时伟:让数据科学家成为业务专家,再为他们配一支技术军团
大数据文摘作品,转载要求见文末
作者 | 钱天培
*本文为清华-青岛数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容,转载具体要求见文末。
“我的工作有相当一部分时间是在出差的。”
这位刚刚毕业于哥伦比亚大学的90后、第四范式数据智能部最年轻的数据科学家王昱森如是向大数据文摘记者描述他的工作状态。
“我们会直接走入客户公司,了解他们的运营模式,有点像咨询。这也是我最喜欢第四范式的地方,给数据科学家的工作任务和美国那边的定位很类似,偏应用端,不会做太多R&D(研发)的工作。”
环顾四周,装修简约的开放式办公室,配上秋千椅、高脚桌,随处可见免费小零食。走进第四范式,你会自然而然地联想到“极客文化”、“工程师文化”,联想到Facebook,Google等以人性化办公著称的科技公司。
而眼前这位数据科学的一番话,却让我们觉得,第四范式的数据科学家们似乎与我们传统印象中以技术为主,常年坐办公室调参、做研发的“科学家”有所不同。
你何时见过每个月都要出差几次的“科学家”呢?
暴走的数据科学家与“消失”的研发团队
“将来的数据科学家,应该每个人都有一个助手,甚至是有一支庞大的军队。这个庞大的军队不吃粮草,只吃数据,数据科学家负责攻城略地就好了。”
在与第四范式联合创始人、首席架构师胡时伟的访谈中,他进一步肯定了第四范式对数据科学家业务能力的重视。“对于我们的数据科学家,不仅要理解算法,更重要的是要求他们有对业务的理解能力和沟通能力,对业务有敏感度。”
在这家定位为“人工智能技术与服务提供商”的公司,胡时伟口中的数据科学家的时间与精力分配,与我们的固有认知存在较大差异。在过去,如果一个数据科学家一天工作8小时,那么可能有超过6个小时他是在做数据准备、模型调参等较为繁琐的工作。而在第四范式,数据科学家每天这类工作可能只占用不到2个小时,剩下的大量时间都用在解决实际业务问题上。从6个小时到2个小时,当中似乎省掉了一整个研发团队所需承担的工作。
那么在第四范式,究竟是谁在负责数据准备、模型调参呢?
接手这个“消失”的研发团队职责的,是第四范式自主研发的一个AI应用者开发平台--“第四范式·先知”平台。
“传统来讲一个数据科学家,他需要一些编程的经验,需要一些系统的经验,需要一些数学的理论支持,同时还要会用一些工具对数据处理,然后是业务知识。纵观其整个工作中,大量繁重的工作其实与业务无关。我们创立第四范式的时候就发现了这个问题:跟业务无关的工作,其实是可以用产品的方式解决的。”
胡时伟所描述的现象可以被归结为“进入数据科学的门槛太高”的问题。Google开发的Tensorflow已大大降低了机器学习的入门门槛,数据科学家们不再需要自行实现艰深复杂的机器学习深度学习算法。
“但Tensorflow主要是面向算法研究者,需要对数学与机器学习有比较深的理解、以及具备较强的编程能力。”第四范式想要把这个门槛放得再低一些——让科学家只需要专注于解决业务问题,带着这些功能封装起来的“军团”,跑到了业务第一线。
给业务高手配一个技术工具?
还是给技术专家配一个业务顾问
给业务高手配一个技术工具?还是给技术专家配一个业务顾问?这是目前人工智能、数据科学领域一直在争论的一个难题。
一方面,工程师背景较强的团队往往会认为,技术能力,例如对机器学习算法的了解,是AI人才的关键技能,数据科学所需要的专业技能则能通过在与客户的沟通中快速学习到;而另一方面,传统上并非以工程师背景为人所知的团队,例如城市规划团队,则认为业务知识需要多年的积累,而编程知识、算法知识则可以被快速获得。
工程背景强悍的第四范式,选择了给业务高手配一个AI平台工具。胡时伟认为,给业务高手配一个技术工具不仅仅是第四范式的产品开发模式,也是未来实现“人人都成为数据科学家”的关键。
在先知的定位中,数据团队及业务专家都是使用者。今年上半年,第四范式举行了一场基于先知的建模比赛,参赛选手是离机器学习比较远的行政、商务员工,两周的培训之后有超过70%的参赛组合AUC成绩(衡量模型效果的指标)超过0.8,达到成熟的数据科学家水平。
在胡时伟带领的先知技术团队的规划中,这个门槛还将继续降低。“我们的愿景是‘AI for everyone’,就是说让大家都能够用到这个新的(数据科学、人工智能领域的)技术。”
“算法和架构的能力可以被产品化,而在业务能力上,AI不会消灭行业。”胡时伟笃定地回答这个问题。他从“AI的五个先决条件”为我们解释了他们所作选择背后的原因。
他认为,企业实现AI化,需要满足五大核心要素:
第一个是边界清晰的问题定义。这个说的就是业务方向。这个特别重要,问题目标都错了,你跑一百米、一千米,也达不到你的目标。
第二个是高质量、有意义的过程数据。这个其实也是跟业务有关系的,这回答的是最重要的一个问题:我该收集什么数据?那这个问题的答案肯定是从业务来,不是从算法来的。
第三个是持续不断的反馈。胡时伟指出,光有过程数据是远不够的。以下围棋为例,光知道棋谱,不知道最后谁赢谁输,是学不会围棋的。
除此之外,还需要有算法能力和高性能的计算能力。在机器学习的实际业务场景中,动辄数十亿级别的数据样本,给计算框架带来严峻考验,在这样的数据规模上即便是简单的逻辑回归模型,也会变成一个非常困难的问题,因此企业在计算能力上的投入将是巨大的。
胡时伟指出,算法能力和高性能的计算能力这两个技术问题,是会随着高性能的机器学习平台的普及和硬件的提升而逐步解决的。而前面的三个问题,是业务问题、社会问题,是需要人去解决的。
公司从数据化到AI化的转变
为时过早吗?
目前,很多传统企业已开始考虑向AI化转型,但事实上它们中的很多仍然处在公司运营数据化初级阶段,这些公司普遍有这样的疑惑:现在考虑AI化是否为时过早?而企业AI化又该走哪条路?该将业务外包给AI咨询公司?求助第三方AI平台?还是自己开发一套AI平台?
在胡时伟看来,企业现在考虑AI化绝不算早,实现AI化所需要的数据要从现在开始攒起。大多数公司不像百度、google这种互联网公司,拥有充足的数据积累。在更多的公司、更多的场景中,AI并不是想开始就能开始的。“未来的企业竞争相当程度上是数据资产的竞争,兵马未动粮草先行,尽早解决数据的问题,这并不是操之过急、而是势在必行的事情。”
而关于三种不同的公司AI化方案,胡时伟认为,这其实是同一种AI化方案的三个步骤。
“单纯的咨询公司往往不具备核心的产品能力,即使是能够给出正确的思路,企业也无法能够真正得到效果。”
胡时伟认为,企业老板通过咨询或是学习的方式能对AI有一个正确的认识。“我觉得一个企业的经营者、决策者是对这个企业业务的提升最了解的人,他自己先要成为一个机器学习应用方面的行家,但是他不用成为算法专家。他要知道业务在新的时代下,在高维对高维的直接反馈的情况下,会变成什么样子,这个是很重要的。”
在树立了对AI的正确观念与期望之后,攒够了AI化所需的数据之后,企业可以选择进一步组建起自己的数据团队,或者通过第三方平台实现AI化。
而至于自建平台,胡时伟则认为并不适用大多数想要实现AI化的公司。“在没有机器学习平台之前,一些有资源储备的大公司会自建平台。但其实到了现在这个阶段,随着第三方平台的成熟,公司可以引入平台、以比较合理的投入高效获得AI带来的收益,何乐而不为呢?”
给AI行业的新人的建议:
找到这个行业真正的金子
“不着急,不跟风;最关键的还是要说怎么能去解决实际的问题”
胡时伟也给想进入AI行业,或是初步进入AI行业的新人提了几个建议。
对于学生来说,没有那么多的机会接触到实际应用,那么就要把AI的方法论搞清楚。“不着急,不跟风。要知道机器学习为什么产生效果,而不是说我下载一个代码觉得产生效果了,就觉得可以了。”
对于AI从业者来说,一定要关注目标导向。在问题定位清楚、提升空间分析完备之前,最好不要就全身心投入到模型调试的工作中去。前期要更多的关心这个模型是不是能解决企业的实际问题,或者是企业解决该问题的数据完备程度是否达到等。
“对于企业来说,目标导向就是你不需要去了解机器背后使用了什么算法、架构,就能享受到大数据驱动所带来的价值提升。”胡时伟如是说。
第四范式正在招募机器学习算法研发工程师、高级大数据研发工程师、AI创新应用研发工程师等职位。在后台回复“第四范式”可获取完整职位介绍。
《数据团队建设全景报告》系列专访往期回顾:
对话猎聘CDO单艺:数据人才困局还需要大数据应对
【独家专访】揭秘LinkedIn总部数据科学战队:技术强者常有,顶级团队胜在软实力
【独家专访】微软郑宇:这个时代不缺数据,缺的是开放的思维
对话Capital One纽约总部数据中心负责人:构建中央数据团队与业务部门的良性生态