民科危险!公民数据科学家也一样
大数据文摘出品
编译:Javen、茶西、Aileen
公民数据科学家(Citizen Data Scientist , CDS)的概念始于2017年,在2018年火爆全球。
似乎可以将CDS看作公民科学家概念的延续,这个概念背后的想法是:技术辅助工具已经非常先进,自动化调参工具的出现、各种MOOC自学平台上课程和实验室层出不穷,所以现在,如果付出足够多的学习时间,似乎所有人都可以迅速具备收集和分析数据的能力,也就是,成为一名“数据科学家”了。
这一概念不止激励鼓舞了大批想要成为“数据科学家”的个人,也让很多缺人的企业有了希望。
数字信息的增长已经对数据科学和分析专业人员产生了越来越大的需求。与之相对,相关人才供给远远不够。因此,供需之间的差距正在扩大。
不断增长的数据职场缺口下,雇佣这一类公民数据科学家,是许多大公司面临“人荒”困境,寄予厚望的解决方案。
大批非相关专业出身、靠着自我培训和技术工具成长起来的公民数据科学家,开始涌入这个领域。
草根公民数据科学家的特征
那么,“草根”出身的公民数据科学家有什么特点呢?
如上图,尽管是非统计等数据科学相关专业出身,我们并不否认,来自业务领域或者其他专业的公民数据科学家,本身具备以下优点:
- 深耕业务领域,对组织机构有深刻认知,对与业务优先次序相关的问题的兴趣;
- 对商业领域有独特视角、分析技术在商业问题中的实证应用、可以证明商业价值;
- 参与多个分析领域和活动、有着实践经验并且有着广泛人脉。
“草根”数据科学家有风险
“草根”公民数据科学家越来越多,他们开始不止从事最基本的数据收集和分析工作,也开始承担数据的预测等核心工作。
就像耐克声称他们的Air Jordans可以让每个邻居小孩成为下一个皮蓬(Scottie Pippen)非常不靠谱一样,技术带来的辅助力量是有限的,风险也开始随之出现。
显而易见,虽然现在所有电动工具都可以在商店买得到,但并不是所有人都可以成为木匠大师;就算有很多在线炒股软件,也并非所有人都能成为百万富翁交易员。
真正的科学要通过专业训练。这是不管多少技术工具都无法取代的。
“高质量的数据仍然非常重要”,针对“公民数据科学家”,全美排名第四的CTO、天睿公司首席技术官、全球数据仓库技术专家Stephen Brobst告诉大数据文摘,现在尽管分析工具越来越智能,但他们的使用前提依然是没有偏向(bias)的数据,和懂得这些数据的专业人士。
“深度学习算法实际上非常适合处理数据质量问题。很多公司现在用无监督学习的反馈循环来解决数据质量问题,但我们还是希望,在数据搜集的过程中就尽量最小化数据偏见。数据科学没有魔法,它不是一个工具就可以解决的问题。你可以通过一些步骤来测试有偏见的数据,但这是件很微妙的事情。”
“你必须雇用那些知道自己在做什么的人。”Stephen称,业内现在存在很多只懂业务、不懂统计的“公民数据科学家(citizen data scientist),这是非常危险的。他们严重依赖技术工具进行数据搜集和分析,并不知道自己在做什么,“这很可能会导致严重破坏性的结果。”
“草根”数据科学家为什么危险?
以下几种原因可以解释:
首先,认知偏差。下边这张图可以很清楚地解释什么是认知偏差。
技术能力可以靠短期培养,但是,认知能力不行,它需要几年甚至十几年的专业训练。不同专业的人对待同一组数据和场景会有很不同的认知。
其次,研究逻辑谬误,或者说辛普森悖论。
所有技术工具的使用前提是假设你的数据首先是优质无偏差的,大多数“草根”数据科学家通过SQL入门,并直接跳入Keras和TensorFlow ......
毕竟MOOC(慕课,同为在线学习网站)的认证课程中就是这么教的。
第三,数据的民主化并不直接导致洞察力的民主化。
这一点很容易理解。eBay并没有让每个人都一夜成为零售巨头,手机也并没有提高人们的智商。尽管现在我们比以往任何时候都有着更多的健康和饮食信息,但世界上的人比以往任何时候都更加肥胖。工具速度,工具规模,正确的使用方法 – 这些永远不会取代真正的专业训练。
所以,放弃“草根”数据科学家的幻想吧!
现在坐下来脚踏实地学习一些有意义的、真正的智慧建立和验证的东西。技术工具允许我们所有人都充满渴望,只有那些投入时间和精力,拥有专业训练和教育的人才能够提升到可以提供有意义和预测性分析的水平。
相关报道:
https://comprehension360.corsairs.network/rise-of-the-citizen-scientist-452a28a93cb