数据科学界的背锅侠?
全文共5132字,预计学习时长10分钟
这篇文章是关于分析学的HBR文章和TDS文章的二合一版本
在选择技能点时一定要注意,不明智的选择所带来的后果可能是灾难性的。除管理不善的团队和完全没必要的招聘,你要知道,真正的英雄正在不断提高自己来适应日新月异的需求。分析学就是很典型的一个例子。
要招就招业务能力最强的
在数据科学界,业务能力强的员工很难招到,毋庸置疑,“全能型”选手在机器学习、统计学和分析学方面都是大师。如果团队中没有一个三合一的通才,只想着怎么吸引只精通一门学科的专才。想想谁能分到蛋糕呢?
如今,数据科学界比较青睐一些花哨的东西,会一点人工智能和机器学习在人才市场中非常抢手。维持了长达一个多世纪的优越性,现在统计学也是热门领域之一。那么,分析学呢?
二等公民分析学
如果你最熟练的技能就是分析学(或者数据挖掘、商务智能),坚强一点,在前面提到的那些大佬高视阔步地超过你,招牌公司暗示你要提升自己技能的时候,你的自信心可能会遭受打击。
门外汉通常很难理解,数据科学分支下的三个领域相互之间完全不一样。即便是使用同样的公式,其共同点也仅此而已。比其它数据科学逊色一些的版本不同之处是,好的分析师是高效处理数据的必要条件。如果他们辞职弃你而去,这是一个很危险的信号。但如果你低估了员工的能力,这种情况肯定会发生。
人人平等
别想着让分析师去学统计学或者机器学习的技能,先鼓励他们在自己的领域勇攀高峰。在数据科学这个行当,精通一个领域的知识比同时对好几个领域都一知半解要好得多。这三个领域各有优势。统计学家能保证工作有条不紊地进行,机器学习工程师能提高项目的性能,分析师能提高处理的速度。
如果能发挥出最大功效,这三个领域都值得一座奖杯,但其实他们所提供的服务完全不同。想要了解其中的玄妙之处,就得先知道在每个数据科学领域中,什么才叫真正的出类拔萃,各个领域能带来什么效益,要求从业者具备什么样的特质。
统计学的精妙之处:严谨
除了在数据上提供专业意见外,统计学家还能帮助你在真实世界保持清醒。对他们来说,经过粗略推断做出的决定比完全不去推断罪过更深。所以好的统计学家能在你发挥天马行空想象的同时,及时把你拉回现实。常在河边走,统计学家非常关注应用方法的合理性,并且会绞尽脑汁地去证明用于数据的推断是否成立。
大部分人都意识不到,统计学家从本质上来说都是知识论者。既然从未知中创造已知是不可能的,统计学家扮演的角色不是编造事实,而是就现有信息进行同类项合并。
结果就是,统计学家能控制风险,为决策者提供新思路。
毫无疑问,很多统计学家对非科班出身的创业者嗤之以鼻。如果觉得统计学家们很难缠,不妨试试这个小技巧:不要瞎总结数据范围之外的东西,你并不需要它们的帮助。(说起来容易做起来难,对吧?特别是在重要项目需要做出决定的时候。)
机器学习的精妙之处:性能
大部分应用机器学习/人工智能工程师对“我打赌你肯定不能建造一个通过率为99.99999%的模型”的反应是“走着瞧吧”。经历了不断建立能正常运行的模型和产品系统,每小时失败一次,几十年如一日天天如此的倔强,机器学习专家知道不可能在课本上找到解决方案。于是,他们会不断进行马拉松式的试错。凭着良好的直觉,他们知道尝试新的方案会有很大的收获,比只知道一堆关于算法的知识好多了(当然两者兼备更好)。
“我能行我可以。”——工程师如是说
然后,你就能得到一个既能顺利解决复杂问题,又能顺利通过统计学家的严格测试标准,还能出色地完成任务的精密系统。
出色的性能不仅仅是意味着清除缓存,还表示着可靠、可测量且更容易维护的模型,在生产的过程中表现得更好。工程中的超凡卓越必不可少。
广度vs深度
前面两个角色的共同点在于,他们都能为具体的问题提供高效的解决方案。如果某个问题根本就没有去解决的价值,那大可以及时收手,免得浪费时间和金钱。企业家经常说:“我们的数据科学部根本就没用。”,然而问题通常源于缺乏合理分析。
统计学家和机器学习工程师眼界比较“狭隘”(类似兔子洞),所以你应该直接告诉他们问题在哪。如果团队里的专家关注点都是错的,你在数据科学方面的投资肯定收效甚微。为了将数据科学团队的作用最大化,要么你自己心里已经清楚了哪些是亟待解决的问题,要么你需要通过广撒网来找到问题所在。
分析学的精妙之处:速度
顶尖分析师编程的速度非常快,能很快浏览体量庞大的数据库,他们在其他专家还在打草稿的时候就已经得出自己的结论了。他们近乎邋遢的编程风格也使很多传统软件工程师感到困惑……直到把他们都甩到身后。速度是最高准则,其次是不要错过潜在机会。掌握信息可视化能在技术层面上突破速度瓶颈:高效的规划使得大脑能更快提取信息,这项技能在需要对信息进行分析的时候能立马派上用场。
在统计学家和搞机器学习的伙计们陷入瓶颈时,分析师就是决策者和其他数据科学从业者的灵感来源。
结果:企业家能掌握自己的工作进程,也能对前所未知领域洞察一二,使得决策者能选出有价值的问题交给统计学家和机器学习工程师去研究,省得他们在无穷无尽的数学题中浪费时间。
废话连篇还是妙语连珠?
“但是”,统计学家反对道,“他们大部分所谓的见解都是废话。”这是在说他们的探索可能只反映出了干扰项,或许还有更多的东西。
分析师用数据讲故事。他们的工作是总结有趣的事实,其过程中发现的所有诗意的灵感,如果没有统计学方面的知识进行支撑,就不能当真。
好的分析师会坚持一个黄金准则不动摇:不要对数据范围之外的东西下结论(要确保你的受众也不要这么做)。不幸的是,相对来说,市面上很少有技术过硬的分析师——买家请注意:现在市面上有很多滥竽充数的人假装自己是数据科学家。但要清楚,从不可知得到可知是没有捷径的。他们兜售废话,想当然地得出一些结论。如果你对自己道德要求没有那么高的话,最好找一个家附近卖蛇油的人,好好招待他们,学学他们的推销技巧。就个人来讲,笔者是不赞同这样做的。
只要分析师能实事求是,不妄自尊大,最坏也不过就是浪费别人的时间。说句不好听的话,分析师比较喜欢使用委婉的言语,比如,他们不说“那么我们可以得出这样的结论”,而是说“由此我们可以想见”,强调分析每个想法,来避免领导者过分自信。
虽然验证假设需要统计学上的技巧,分析师能帮助你率先得出这些假设。比如,他们可能会说,“它们只是有关系而已,但我猜测更多的可能是因为…”,然后再给出他们得出这个结果的理由。
要达到这样的水平,需要对数据之外的信息时刻保持敏锐的直觉,还需要具备良好的沟通技巧将可行方案知会决策者,由他们来决定哪些是统计学家们接下来工作的重点。分析师逐渐上手之后,决策者就能放手把这个工作交给他们去做,不需要再当这个中间人的角色了。
在这三个领域中,分析师是最有可能做到管理层的。
能处理数据的工具非常多,最优秀的数据分析师最清楚自己在哪方面需要加强。如果做不到的话就要警惕了。随着好奇心促使数据工程师对自己的行当进行更深入的交接,要引导他们从一对杂乱无章的信息中得出决策者期望的结论。
为了节约时间,分析师应该先把打算讲的故事摊开来,再从不同角度,结合一定的调查,随后把最终结果呈现给决策者。如果决策者头脑发热,在很重要的事情上做出了不明智的决定,这时候统计学家就得介入,在新数据中衡量其利弊。
分析统计学家
对实事求是的数据分析师来说,没有什么是绝对错误的,只有不那么奏效的。抱着“用正确的方式做事”的心态就大错特错了,尤其是探索性的数据分析和数据严谨性之间有一道很重要的分界线:就是决策者。决策者必须要衡量分析师的见解是否值得专家投入时间和精力去钻研。除非这个人是统计分析的专家,或者精明的决策者,在商场叱咤风云,否则其他人的技能点都像三明治一样,中间总是有缝隙。
如果分析师能填补这个空缺,那你捡到宝了。好好珍惜!
机器学习和人工智能中的分析
机器学习专家将大量的潜在数据输入算法,调整好设置,不断进行重复,直到机器给出预期结果。好像听起来这个过程并没有分析师什么事,但在真实商场上,有太多因素需要考虑,情况远比理想的复杂。
有办法可以把范围缩小,就是直接去问那领域的专家。还有另一个办法,就是进行分析。打个比方,机器学习工程师很擅长在厨房捣鼓,但现在他们站在一个又大又黑的仓库面前,里面全是可以使用的食材。他们要么随便拿很多食材,拖回厨房,也可以选择派一个跑腿的,举着手电筒去仓库找,分析师就是团队里跑腿的这个人。他们就好像小前锋,能帮助你很快看到问题所在并进行总结,这项技能对项目来说是个很好的助推器。
分析-机器学习专家
分析师能加快机器学习项目的进程,所以这种复合型人才很抢手。但是分析和机器学习两个领域采用的编程风格和方式不一样,很难找到顶尖高手。(要找到一个既满足条件,性格又冷静沉稳的人就更难得了,真正的全栈数据科学家都是凤毛麟角)。
长期碰壁的危害
分析专家不是低配版的机器学习工程师,他们的编程风格是故意为追求速度而进行了优化。他们也不是差劲的统计学家,因为他们的工作不完全和不确定性打交道,他们更多情况与事实打交道。“这就是我的数据呈现的结论,这个范围外的东西不属于我讨论的范畴,但决策者可能想和统计学家了解一下这方面的内容……”
新手通常不知道,比起其他应用领域,顶尖分析师的工作对数据科学中的数学知识的掌握提出了更高的要求。除非工作任务复杂到要发明一种新型假设或者算法(这是研究者的工作范畴),统计学家和机器学习专家可以直接用现成的代码包和测试,不用亲自处理公式。
比如,统计学家可能会忘记p值的t测试的公式,因为可以直接用现成的软件包。但他们肯定知道怎么使用,什么时候使用,还能纠正得出的错误结果。但分析师不会去分析结果,他们更多的是和庞大又多维度的数据集打交道。使用p值的公式来对数据集进行切割,期望原先数据集中的套路肯定会得到他们看到的数据。如果没有数学基础,你根本就不会有这样的想法。和统计学家不同的是,分析师并不关系t测试和数据是否符合,他们只关心t测试给出现有数据集的相关信息。虽然差别很小,但很重要。
统计学家和数据之外的东西打交道,而分析师则相反。
顶尖统计学家和分析师都精通数学知识,虽然有时候他们可能使用一样的公式,但他们的工作完全不一样。
同样,分析师通常会使用机器学习算法来切割数据,对数据进行分类,检查异常数据。因为分析师的工作目的不是为了提高性能,而是寻求灵感,他们采用的方法也不太一样,在机器学习工程师看来可能就比较简单。但这也是同一种工具不同用途的例子。
打个简单的比方:医生、裁缝和办公室文员都会使用大头针。但他们所做的工作大相径庭也不可相提并论。如果为了职业上的提升,劝裁缝或文员去学习外科知识是非常危险的。
如果招太多机器学习和统计学方面的员工或者只奖励有这两方面的技能的员工,你可能会失去分析师。谁帮你分析哪些问题值得解决呢?那时候你就只剩下一帮可怜的专家,整天疲于解决那些没什么用的项目和分析任务。那你手头的数据就完全没用了。
对研究者的关心和爱护
如果没有那种任务重、难度大、现有的算法都不能解决的问题,很多负责人想招博士,(他们过分注重学术研究),而不是去找统计学家和机器学习工程师。
如果你想投资弄一个研发部门,但并不打算问开发者最近做了些什么。为了研究而研究是一项风险很高的投资,很少有公司能负担得起,因为从无到有的几率非常小。
有真正需要解决的问题时,研究者才真正属于研发部门之外,如果没有现成的可用算法,他们能创造出新的算法,不然就变成了一项永无休止的任务(那完全就是你的责任,与他们无关)。研究者通常会在训练阶段花很长时间,当然,有总比没有好。
遇事不决,先招分析师
分析师帮你辨认出有价值的项目,数据科学家试着去解决但没能成功时,通常就是把分析师收入囊中的最佳时机。这时候就要放出专业的发明家了。
点睛之笔
遇事不决,先招分析师。好好珍惜他们,做出成果之后好好奖励他们。要鼓励他们在自己的事业中创出一片天地(是你的事业,不是别人的。)在上文提到的所有角色中,每个行当其实只需要决策者和分析师而已。只有实际需求出现时,你才需要其他角色。从分析师开始,为你的新技能感到自豪,同时也要开拓视野,善于接受眼前新的信息。不要小看灵感的力量。
图|GETTY IMAGES, 巴比伦,摄影之外,VICKIJAURON
笔者最喜欢的一种说法就是,人都是商业中领导者,在找工作的时候都追着一帮分析师跑。
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范