为什么机器学习之路没有捷径可走?
来源:AI前线
本文约2200字,建议阅读6分钟。
正确进行数据科学研究不仅仅是一个调整模型的问题。
[ 导读 ]机器学习如火如荼。很多公司都想走捷径,试图实现“弯道超车”。但是,机器学习之路是没有捷径可走的,也需要厚积薄发。妄图跳过这些阶段实现“弯道超车”无异于揠苗助长。所谓“弯道超车”,大意是说中国有“后发优势”,可以充分借鉴欧美的先进技术,不用斥巨资搞研发就能赶超欧美。这根本就是错误的思想,这种投机取巧的心理非常危险。
要知道,像 Google 、Microsoft、Facebook 等高科技企业,每年研发费用都在 100 亿美元左右,美国之所以能够成为世界科技强国、科技大国,就因为他们舍得花钱搞研发,耐得住寂寞去搞研发。小编真心希望,国人能够摒弃“走捷径”、“抄近道”、“弯道超车”这种投机取消的心理,沉下心来,踏踏实实去学习,搞研究,不要再出现“汉芯”、“红芯”这样的事件了,只有这样,我们才会有未来。
大数据仍然是少数人的游戏——只占 1%。不过据 O'Reilly 最新的调查数据,这一比例为 15%。这一调查显示,大多数企业(高达 85%)并没有掌握人工智能和机器学习的精髓。仅有 15%“复杂”的企业在生产中运行模型超过 5 年。重要的是,这类公司倾向于在模型偏差(model bias)和数据隐私等关键领域投入更多的时间和精力,而新手们却还在苦苦寻找入门的途径。
注:O'Reilly 的调查见《The State of Machine Learning Adoption in the Enterprise》http://u6.gg/ewdrm不幸的是,对于那些希望通过抄近道(如使用 Google AutoML)或者通过有偿顾问来缩小数据科学差距的公司来说,答案似乎是:要掌握数据科学,需要时间,没有捷径可走。
聪明的公司专注于数据的深层次
首先,有一点需要注意的是,O'Reilly 的调查数据是来自一群自我选择的人:参加 O'Reilly 的活动或通过网络研讨会,或其他方式与公司合作过的人们。这些人对数据科学非常感兴趣,即使其中大多数人并没有真正利用过数据科学(如调查数据所示)。然而,对于那些沉迷于大数据体验的人来说,这是一个伟大的群体,那些被称为“复杂的”人们拥有在生产中运行模型超过五年以上的经验。
这次调查中,有一个有趣的数据就是这些人如何谈论自己。拥有丰富数据经验的公司将数据科学称为“数据科学”。如图所示,那些还受困于 90 年代“数据挖掘”思维模式的人们更喜欢“分析师”这一称号:
无论公司如何称呼他们的数据专家,企业拥有人工智能和机器学习的经验越多,他们就越有可能依赖内部数据科学团队来构建企业的模型,如下图所示:
实际上,没有人指望云机器学习服务(至少就目前来讲还没有),而那些拥有不到两年生产经验的公司则倾向于依靠外部顾问来构建机器学习模型。对这些公司来说,这可能是一个机会,可以无需在人员下血本就能够从数据科学获得好处,但这种做法着实很愚蠢。
使用数据的公司越复杂,他们的数据科学团队构建模型的能力就越高,并且能够评估项目成功的关键指标。在所有公司中,产品经理倾向于定义项目成功指标(36%),执行管理(29%)和数据科学团队(21%)也参与其中。
但对于经验丰富的公司来说,尽管产品经理仍然是被引用最多的(34%),但数据科学领头人(27%)与执行主管(28%)大致相当。
经验最少的公司则倾向于寻求依靠高级管理层(31%),很少依靠他们的数据科学领头人(16%)。这些都不是问题,因为数据科学团队完全有能力找出如何使用数据并衡量其成功与否。
很多时候,是问道于盲
这种依赖高级管理层来推动数据科学的做法,让人联想到一项调查(详见 http://u6.gg/ewc7t), 这项调查显示,高管们自称是数据驱动型的,但忽略了那些不支持直觉决定的数据(62% 的人承认自己就是这么做的)。
对大数据缺乏悟性的企业,似乎口头上承认数据的重要性,但他们并不理解有效数据科学的细微差别。他们缺乏必要的经验,而这种经验能够确保他们收集有意义的、没有偏见的数据见解。
当 Gartner 的 Andrew White 谈到理解机器学习模型以及如何在结果中培育信任时,那些更为复杂的企业就会明白他这一言论背后的意义:
人工智能的新颖之处在于,人工智能能够重新划清界限:那些我们认为过于复杂、毫无规律的事务,现在可以用人工智能加以利用。正如我们预期的那样,人工智能可以处理比以往技术更复杂、需更多认知的工作。只有在人工智能的自动化工作有意义的情况下,这一新的现实才能在光天化日之下继续存在。如果这个太过复杂的黑盒子做出了人们无法理解的决策,并改变了结果,那么人们很可能会因此关掉黑盒子。因此,在某种程度上理解决策是非常重要的。但是,理解或解释决策与理解算法的工作方式是两码事。人们应该能够掌握输入、选择、权重和结果的原则,即使算法将这些原则组合到连我们都无法证明其过程的程度。如果结果和近似输入之间的差距过大,那么对算法的信任很可能会失败,这就是人性。注:出处参见《The Difference between Decision Making and AI》http://u6.gg/ewcCq要达到这种理解水平,并不是用一个顾问的价格就能够买到的。而且,它也不是现成的云机器学习。像 Google 的 AutoML 这样的工具宣称:“让拥有有限机器学习专业背景的开发者能够根据业务需求去训练高质量的模型。”这听上去真是太棒了!但是,要想从数据科学中得到好处,还是需要具备数据科学的经验。这并不仅仅是一个调整模型的问题,而是要知其然知其所以然。需要进行多次的反复试验才能达到这种境界。
此外,正确进行数据科学研究需要一种文化心态,而这种文化心态同样也来自经验。捷径,是不存在的!这意味着,那些较早投资数据科学领域的公司,应该会发现,与那些没有竞争优势的同行相比,自己占据领先地位,而这种优势很可能会持续下去。
对于那些希望迎头赶上的公司而言,Gartner 分析师 Svetlana Sicular 的经典建议依然是正确的:“公司应着眼于内部。比神秘数据科学家更了解自己数据的人,其实就在公司内部。”只要公司能够明白优秀的数据科学家的养成是需要时间的,并为这些人提供学习和成长的空间,他们就不会寻求什么捷径。
原文链接:https://www.infoworld.com/article/3297063/machine-learning/why-there-are-no-shortcuts-to-machine-learning.html?upd=1534978424699