亚马逊CTO:机器学习的时代已来临
亚马逊 CTO Werner Vogels 在香港会展中心举办的 Rise Conference 现场发表了关于机器学习的演讲,在这位AWS主架构师的眼里,Maching Learning 的时代无疑已经来临。
他表示,亚马逊内部已使用机器学习多年,包括尝试过滤商品下方的垃圾评论、通过注册姓名来辨别用户的男女性别,以及训练分拣机器人对不同形状物品的判断能力,以便能在陌生物品出现时进行抓握动作等。而亚马逊AWS的许多大客户(如社会活动网站Change.org),都要求亚马逊提供更多的机器学习功能。
因此,今年4月亚马逊 AWS 云服务家族宣布新添加这名新成员 ——Amazon Machine Learning。它是一项全面的托管服务,开发者无需具备任何机器学习经验,就能轻松使用历史数据开发并部署预测模型。有了它,AWS开发人员能更容易地从他们托管系统收集到的大量事务性和操作数据中挖掘价值。这些模型用途广泛,包括检测欺诈、精准营销、个性化推荐、文档管理等。
Werner Vogels 介绍说,通过使用亚马逊的机器学习技术,在没有任何机器学习经验的前提下,单个开发者可以在20分钟内解决之前需要两名开发者花费45天才能解决的问题,并且所建立的模型同样能够实现92%的精确度。
除了亚马逊外,微软旗下专注云服务的Azure也在今年二月推出了自己的机器学习工具,IBM在三月收购AlchemyAPI后,决定把AlchemyAPI的深度学习技术整合到Watson核心平台,增强Watson挖掘非结构化数据并识别出它们之间联系的能力。
以前的机器学习似乎是阳春白雪,只有大公司和尖端高校实验室才能玩得转。有这么一群人,他们的梦想是使机器学习技术变得下里巴人,让人人都能用机器学习。他们分布在两类从事机器学习技术研发的公司:
- 提供机器学习技术平台
- 机器学习API提供者
专业造轮子
工程师们的一句口头禅就是“不要重复造轮子”,意思是告诫工程师们应该把主要精力放在满足需求上。但这句话不是绝对的,对于专业造轮子的工程师来说,造牛逼的轮子就是他们的需求。第一类公司的工程师就是专业造机器学习轮子的人们。据我所知,目前世界成熟的第一类只有Databricks和我们之前报道过的Dato两家,Petuum刚刚进入商业版本开发阶段。
这类公司有两个优势。一是研制机器学习技术平台需要极高的技术水准。虽然Google、Facebook以及国内的百度都有自研的机器学习系统,但都没有对外公开。二是机器学习技术平台有很广泛的应用,不管是面对企业提供API或者数据分析服务的公司,还是面对消费者提供智能服务的公司,都需要一个高效的机器学习技术平台。因此这种提供基础设施的领域有可能产生新的巨头,就像网络时代产生了思科网络设施巨头一样。
但这类公司也有隐忧。机器学习领域和诞生思科的硬件领域有一点不一样,机器学习领域存在牛逼的技术开源项目。目前Spark和Storm两个开源系统各方面都比较完善,对第一类公司成长为巨头构成威胁。除了通用型的开源机器学习系统,还有特定用处的开源项目,比如用于深度学习的 Caffe、用于自然语言处理的 Stanford CoreNLP 以及数据预处理可视化的 Pandas。
这类公司并不是直接面对普通开发者,而是方便公司里的工程师们搭建大规模机器学习平台,让那些无力研制机器学习系统的公司也能方便地使用高效的机器学习。第二类提供 API 的公司是直接面对普通开发者的。
Call Me
第二类公司提供机器学习的API。如果API有心愿,那么这个心愿一定是“调用我(Call Me)啊”。机器学习的API也分两类,一类是用公司自己收集的训练数据训练好的模型。比如AlchemyAPI提供的情感分析API,只需要用户提供文本或者文本的链接地址,就会返回该段文本蕴含正面情绪还是负面情绪。另一类是需要用户提供自己的数据训练API。比如Face++ 的人脸识别API就需要用户自己上传不同人物的照片。当然很多公司同时提供这两种API。更妙的是,有些深度学习模型,比如适合处理图像的卷积神经网络,允许先用公司收集的大规模训练数据进行训练,再根据用户提供的数据进行微调。
有了这些API,开发人员需要做的事情包括:1)处理好自己的数据,2)将处理好的数据扔给API得到结果,3)对于需要预先训练的API,还需要整理一份有正确答案的训练数据给API训练。开发人员利用这些API可以很方便地将机器学习运用在自己的产品中。
除了创业公司,巨头们也开始涉足这个领域,比如Google Predict API, Amazon Machine Learning和微软的Azure Machine Learning等等。
人人都能用机器学习
这两类的公司都致力于让机器学习的使用变得简单。MetaMind公司创始人Socher这样描述他创立MetaMind的初衷,“Google、微软和 Facebook的研究会影响到许多人。但是我感觉,如果你把这些模型提供给其他公司或者个人,让他们去研究,那么还有许多的潜力可挖”。为了提高易用性,MetaMind甚至允许用户使用拖拽方式训练模型和获取模型的预测。