别跟风了!你的公司根本不需要数据科学家
大数据文摘出品
编译:Hope、倪倪、夏雅薇
数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决当下数据科学家的痛点,这样数据科学家才能发挥作用解决公司的痛点。
大约在四年前,数据科学家成为了每个公司的必须雇的人。技术人员争先恐后地甩掉在大学用的统计课本,花大量的时间重新学习Python Pandas和R,然后恶补最时髦的机器学习理论,再买几件geek制服显得更像那么回事。我就是其中一员。
如果你是做Hadoop开发的,这也是你的黄金时代。因为大家已经达成了共识,不会map/reduce得数据科学家不是合格的数据科学家。伴随着数据科学的热潮,印度的程序员工厂推出了数以千计的Hadoop程序员和数据科学“专家”来迎接未来的“大事件”,一定程度上延长了濒临倒闭的Hadoop公司的寿命。
各大公司在第一时间都开始了对数据科学家的投入。每一家在纳斯达克指数中占有一席之地的公司都向这些数据科学家支付了巨额薪水,他们认为数据的先知力量会让他们挫败竞争对手。
而各个销售经理和高层管理只要每天早上打开iPad就能实时看到公司具体运营情况。数据仪表图成为了重要的地位象征,企业高管会获得具有3D可视化和实时动画散点图的超级豪华仪表图,而基层员工也会看到平面2D仪表盘,虽然没有那么花哨,但也会得到必要的信息和简要的摘要。
然而,这其实改变不了什么。那些数据科学家(大部分具有高学历和多年工作经验,如在制药或高级材料工程领域)将会很快意识到他们使用的数据质量其实非常糟糕。
大家普遍认为企业中存在各个环节、部门的各式各样的数据都是有用的,但是最后他们发现这些数据大部分是过时的,没有固定格式的,只能够为当时需要并收集这些数据的程序员所用。
大部分数据都是以电子表格形式储存,在没有监管的情况下多次被修改,因此与真实数据有很大偏差。很多数据集没有详尽的文档记录,表格的表头名称意义不清,比如MFGRTL3QREVPRJ,不同表格之间也没有一致的主键。换句话说,他们拥有的数据不适合做任何分析,更不要提针对药物试验的专业测试分析。
现在你拿着15万美元的薪水来做可视化仪表图,给那些根本不懂统计只想获得百万利润和巨额提成的销售经理看。你的数据一团糟,根本没法用。当你请求重建数据库时,公司陷入了挣扎,这个项目要花上百万,而他们认为没有必要。现在你面临一个选择,其实你可以撒个谎,用计算机随机产生数据,然后得到一个很可能比目前数据更加准确的结果。但是这对于数据工作者是个难题,因为这违背了他们追求精准的初衷。那该怎么办?
现在,我可以装作一个语义分析传道者,告诉你需要开发一个语义数据中心。实际上,这不是很难实现,并且是有益处的,但它并不是什么神奇的魔法。语义数据可以比较容易转化成可用的数据形式(如果没有发现有用的数据,也能发现并摒弃掉没有的部分),但本质上这不是数据科学问题——它是数据质量和本体工程问题。
好了,对于那些高层决策者,当你遇到数据上的问题,你的数据科学家可以有“万花筒”般的数据分析方法,但是没有高质量的数据做保证,得到的结果一点用都没有。巧妇难为无米之炊,这不是数据科学家的问题,是你的问题,你天天盯着那些能给你赚千万资金的可视化仪表盘,其实是看着你的钱从门前溜走。
在数据分析的项目中尽管你不是实际操作的人,但你的参与绝对不是可有可无,首先你需要明确你想要什么信息,然后花时间与数据科学家和业务人员一起确定需要收集什么数据。不要指望你想要的数据会奇迹般地从数据库中出现。
再来谈谈数据库。数据库大多是为程序员所用,写各种应用程序,它存在的首要目的不是为你的公司提供具有洞见的指导性意见。首先你要坐下来好好想想你已经有什么资源,因为要从别人那里索要数据资源是非常被动的,特别是当这个数据获得权涉及到别人的工作和职责范围的时候。
再者,你要明白大多数数据库都没有详尽的文档记录(有的甚至没有文档记录),很多信息都需要从隐藏文献中提取。这个过程被称为推理计算,很多程序员不愿意做这个事情,因为这意味着他们需要从代码去反推其他程序员的意图,而别的程序员要么已经离职了,要么能力有限,要么已经忘了他们十年前写的东西。
关系型的数据湖不能解决这个问题,数据湖唯一能够解决的问题是让计算机进程能够访问所有的数据。这是此类推理计算的必要部分,但它不是最难也不是最昂贵的部分。最昂贵的部分是弄清楚数据实际意义是什么,获得不同的数据集甚至能够识别出它们是关于同一件事的。这些问题都没有现成的解决方案,需要靠摸索。
这里,我们再次提出语义的解决方案——图形三重存储,RDF,本体管理,查询和所有内容。它不是一个开箱即用的解决方案,但它是一种工具,可以使推理分析变得可行,并且可以把这个工具交给程序员来管理。
不过,你需要经常对整个数据流的过程进行重新思考。你需要知道最开始从哪里获得信息,然后让信息尽早流入数据通道。这需要你的程序员和数据库管理员放弃一定程度的自主权,在一个集中化的环境中工作。作为执行人的你,应该更加熟悉数据治理的世界。
对于商业人士来说,这是一个相当激进的改变,不止一些人意识到他们要实际动手去解决IT问题。不过,如今的企业正在进行转变(并且大部分已经成功转型),成为专业的数据管理公司,产品和服务更像是它们的副产品。
现今CEO的角色是在管理销售的同时了解公司数据的输入与输出,确保他们的数据质量是最好的。这不仅是为了合理的监管,更因为数据的完整最终会决定他们是否能够在市场竞争中脱颖而出。
企业领导者要多与数据团队协作交流,来确定你需要知道什么,想要知道什么,什么东西是相关的,然后再来构建和你商业需求相关的数据收集过程。随意从数据库里提取一些信息来分析,只是徒增磁盘储存的成本而已,雇佣数据科学家来分析垃圾数据只能得到垃圾的分析结果。结果呈现可能很漂亮,各种渐变梯度各种三维效果,然而却毫无价值。
相关报道:
https://medium.com/@kurtcagle/why-you-dont-need-data-scientists-a9654cc9f0e4