拖拽式机器学习的爱与恨

liedaoshou

2017-04-05

拖拽式机器学习是我想了很久的问题。

拖拽式机器学习的爱与恨

1. 前世今生

拖拽式机器学习是，人们在界面上通过拖拽就是建立机器学习过程。拖拽式机器学习系统一般拥有丰富的组件，包括数据清洗、特征选择、训练、预测和效果评估。通过类似于 “搭积木” 的方式，人们将学习组件合成一个完成的机器学习过程。

拖拽式机器学习的雏形很早之前就出现了。Weka 是有新西兰 Waikato 大学开发的数据挖掘软件。Weka 除了提供 Java API 之外，还提供 Weka Explorer 图形界面。人们在 Weka Explorer 界面上通过鼠标操作就能很方便地加载数据、观察数据特点、训练、预测和效果评估。除了 Weka 免费软件之外，商业软件 Matlab 和 SASS 也提供了图形界面。我个人觉得，这些软件将自己定位为软件，而不是工具包或者系统。但这些软件确实是最开始有图形界面的机器学习系统。

拖拽式机器学习的爱与恨

随着最近几年机器学习成为显学，“人人都能使用机器学习” 成为不少人的愿景。在他们的想象中，数据准备、不同算法训练、不同算法的预测和效果评估都封装在组件中，人们只需要点点鼠标拖拽拖拽组件，就能顺利地使用机器学习。秉承这样的理念，人们开发了不少拖拽式机器学习系统。其中比较有名的就包括微软的 Azure Machine Learning Studio 和阿里的大数据计算服务 MaxComput。

拖拽式机器学习的爱与恨

除了大公司，也有创业公司开发拖拽机器学习系统。下图是 aetros 基于 theano 建立的深度学习平台。用户只要进行拖拽就可以完成一个基本含有ConvNet，fcNet的架构。

拖拽式机器学习的爱与恨

2. 爱

拖拽式机器学习将机器学习的使用门槛，从编程降到组件拖拽和配置文件撰写。机器学习使用难度实现了质的下降。但这个优势我一直有怀疑。金融公司、外贸公司、银行，甚至互联网企业等组织机构中，非技术人员真的有使用机器学习的需求和知识储备嘛?我表示怀疑。

拖拽式机器学习即使不能实现 “人人都能使用机器学习” 的初心，也能极大地方便工程师进行机器学习任务。工程师在界面上组织资金的机器学习任务，可能对自己的机器学习任务有一个直观的认识：自己的机器学习任务进行到哪一步了;如果出错，在哪一步出错;出错步骤影响了哪些任务。

拖拽式机器学习的爱与恨

比如我们很直观地可以从上图看出，如果归一化出错，将会影响拆分任务和后续任务。

3. 恨

说了拖拽式机器学习的好，我们再说说拖拽式机器学习的坏。

拖拽式机器学习中，组件加配置替换了编程，成为人们使用机器学习的方式。但是组件加配置，却不能像编程那样，完全地处理机器学习使用的复杂度。除了对机器学习算法的理解，机器学习使用最复杂的部分有两个部分：调特征和调参数。调特征的内容包括：要用哪些特征，要摒弃哪些特征，采用哪些特征预处理方法 (比如 scaling)。调参数则和具体算法有关，比如逻辑斯蒂回归主要有学习率和正则因子两个参数。

拖拽式机器学习的爱与恨

组件加配置的方式能配置一组特征工程方案和一组参数，但很难快速验证哪一组特征工程方案和参数效果最好。在编程方式中，我们可以用循环的方式，遍历不同的特征工程方案和参数，得到相应效果指标。但在拖拽式机器学习的组件加配置的方式中，我们只能在文档中记着不同的特征工程方案和参数，选择其中一个配置到拖拽式机器学习系统，运行几个小时得到评估指标，将评估指标记录到文档中;再选择下一组，重复上述步骤直到遍历完所有特征工程方案和参数。我们程序员的目标是用代码将不同的任务串起来，实现自动化。但现在拖拽式机器学习粗暴割裂了这个自动化链条。

那么直接用组件加配置实现自动化呢?如果要实现这点，拖拽式机器学习要提供条件判断组件和循环组件，还需要定义一套特征工程方案和参数变化的标准。这好像是在制定一个新的编程语言。这又绕回来。

机器学习人工智能 text-align

安科网

拖拽式机器学习的爱与恨

liedaoshou

liedaoshou

相关推荐

如何通过7个步骤构建机器学习模型

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

理解AI：为什么要在人工智能系统中寻求可解释性呢？

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

IT自动化和人工智能将在2021年走向何方?

强化学习到底是什么，它如何运作？

数字营销：AI如何“看透”人类行为模式？

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

机器学习新风暴：如何用ML模型预测房价？

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

需要知识的后深度学习时代，如何高效自动构建知识图谱

24个提高知识和技能极限的机器学习项目

liedaoshou