如何应对数据科学的“负担症候群”
摘要: 为什么“负担症候群”在数据科学中如此流行,我个人是如何处理这个问题的?应该如何鼓励那些正在受影响的人?本文对此进行了详细的阐述。
“负担症候群”为何在数据科学中如此盛行?其原因如下:
(1)数据科学是一个全新的领域。
2011年,DJ Patil和Jeff Hammerbacher首次被冠名为“数据科学家”。从那时起,我们一直都想弄明白数据科学到底是什么?“数据科学”的不同定义导致了我们对数据科学家应该是什么感到困惑。在此之前,由于“数据科学”也未曾在大学里教过,绝大多数的数据科学家并没有“数据科学”文凭,他们中的大部分也都是来自其他领域。
(2)数据科学是一些领域的综合。
数据科学家可以是分析员/统计师/工程师/机器学习专家/可视化专家/数据库专家/业务专家的组合。他们每个人都在自己的领域具有很资深的地位,从上述任一领域来到数据科学领域的人跟其他人会有明显的差距,这也是完全合理的。
(3)采用新技术,数据科学的范围正在不断的扩大。
随着计算机内存变得越来越便宜,开源代码也越来越流行,越来越多的人对学习数据科学及其相关领域感兴趣,和数据科学相关得技术也在健康的发展。这对于社区和效率来说都是好事,也为数据科学家们提供了大量的新技术来学习。
具有不同背景的人来到一个新的有许多实际应用的领域时,这个新领域的界限也并没有很明确的定义(从而不可避免的导致他们对整个领域的知识存在空白),其技术的发展速度使人们很难跟上。这是数据科学家在2018年所面临的困境,也是为什么有这么多人会受到“负担症候群”的影响。
应对“负担症候群”的秘诀
我了解的每位数据科学家都在不断的学习,它可能是个很小的东西(一个工具或是快捷键)或者是更大的东西(一个新算法或编程语言),但是我们都在不断的学习,这很重要。对于我来说,每个人都在学习的这个领域让我感到兴奋的同时,同样也产生一种恐惧感(如果我学到的知识是别人已经知道了呢?),这种恐惧感就是“负担症候群”。
我处理“负担症候群”的方法是:我知道永远无法学习到数据科学中所有的知识——我永远不会了解每一个算法,每一种技术,每个包,甚至是每一种语言,这都没有关系。在这个多元化的领域,最伟大的事情就是没有人会知道所有的这些事情。
同样,我也会知道别人所不了解的知识。我已经为几十所大学和非盈利组织构建了预测模型,具有成功创建和分析A/B测试所需要的经验,并且正在学习如何在实际生产中使用机器学习模型。这些并不是每个人都有的技能,有些人比我更了解计算机科学或机器学习,又或者是Macbook快捷键。没关系,多样性是件好事,我也可以从这些人那学习他们的技能。强大的Venn图可以阐述你与其他人的关系,以及如何重叠的。你所了解的知识很少是其他人了解的子集,而是重叠关系,这也会使你与别人不同。
社区内降低“负担症候群”
如果我们一致认为数据科学家都在工作中不断的学习,那么我认为,为了在更大的数据科学社区降低“负担症候群”影响,我们能做的就是公开认可它并致力于建立一个健康的学习环境。
·适应“I don’t know”。
当人们说“我不知道”的时候,需要很大的勇气承认,我很尊敬这样做的人。让人们更加适应“我不知道”,一种方法就是建立良好的社会规则(当有人不知道时,不要假装惊讶,而是将他当做幸存者之一)。
·不要“假装成功”
有信心当然是好事,但是“imposter”实际上就是欺骗,而且我认为,想要成为更好的数据科学家,我们可以做的比“伪装”更好。“伪装”很有压力,如果你陷入一个谎言,可能会造成长期的伤害和失去其他人对你的信任。
·鼓励提问
勇于提出问题有两个好处:一是通过围绕问题的对话获取知识;二是公开提问可以鼓励他人提问。提出问题正是数据科学家应该做的事情,我们应该鼓励。
·分享你所学到的知识
当我看到其他人在分享他们正在学习的知识时,这也有助于从自己的角度看待我自己的学习情况——而且我对于该话题是否了解的比较多,也激励着我去了解这个对于他们来说是新知识的话题。
以上为译文。
本文由阿里云云栖社区组织翻译。
文章原标题《imposter syndrome in data science》,译者:Mags,审校:袁虎。