5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

全文共2192字,预计学习时长7分钟

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

来源:Pexels

智能实时应用为所有行业带来了革命性变化。机器学习及其分支深度学习正蓬勃发展,因为机器学习让计算机能够在无人指引的情况下挖掘深藏的洞见。这种能力正是多种领域所需要的,如非结构化数据分析、图像识别、语音识别和智能决策,这完全不同于传统的编程方式(如Java、.NET或Python)。

机器学习并非新生事物,大数据集的出现和处理能力的进步让每一个企业都具备了构建分析模型的能力。各行各业都在将分析模型应用在企业应用和微服务上,用以增长利润、降低成本,或者改善用户体验。

可是现实是:尽管企业都对机器学习和人工智能都进行了大肆宣传,但其大部分技术仍处于试验阶段。造成这种现象的不仅与机器学习项目相关的自然实验有关,还与不成熟的机器学习架构密不可分。

这个问题在企业环境中特别明显,现代机器学习解决方案的新应用程序,生命周期管理实践与企业实践和法规需求相冲突。

当采用机器学习解决方案时,企业应该设置哪些关键的体系结构构建块?答案并不简单,但最近一些研究实验室和人工智能数据科学家已经作出一些努力,为大规模机器学习解决方案奠定了基础。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

两个主要的大规模机器学习解决方案建立参考体系结构挑战

1)机器学习框架和基础设施的发展速度远远快于在主流环境中应用这些技术的速度。

第一点,就要了解形成机器学习生态系统的四个主要领域:研究、开发框架、基础设施和应用架构。在过去的几年里,前三个领域的发展速度比第四个领域快得多,导致在主流环境中应用新的机器学习体系结构时出现很多摩擦。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

2) 机器学习解决方案的生命周期与其他软件学科完全不同。

第二点也不是很明显,除非在现实应用中遇到了这个挑战。机器学习程序与传统软件应用程序的生命周期完全不同。因此,大多数已建立的应用程序开发法,如敏捷开发或瀑布开发,以及持续集成/交付工具和流程,在应用于机器学习解决方案时都存在不足。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

但是这些挑战肯定是相关的,第一波架构为机器学习解决方案提供了可行的工作流程。矛盾的是,与流行的机器学习框架(如TensorFlow、PyTorch)或机器学习平台(如AWS SageMaker、Azure ML)相比,其中大多数解决方案并没有得到机器学习社区的太多关注。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

你需要知道的五种机器学习参考体系结构

下面列出了一些我最喜欢的框架和参考体系结构,它们可以简化机器学习解决方案的在现实中的应用。

DataBricks的MLflow

MLflow 是一个开源平台,用于自动化机器学习解决方案的生命周期。该体系结构侧重于机器学习工作流程的三个关键领域:训练、项目打包和模型服务。MLflow集成了许多主流开发框架以及运行时基础设施,因此,在各种机器学习的场景下都可以选择这一框架。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

斯坦福的DAWN

DAWN 是由斯坦福大学携手Intel,Google,Microsoft等世界知名公司联合举办的项目。去年发表的一篇研究论文概述了DAWN背后的基本原理,提出了一系列工具、框架和架构参考来简化机器学习工作流。当前的DAWN项目包括机器学习解决方案生命周期不同方面的项目,如训练(Snorkel)、连续分析(MacroBase)或数据计算(Weld)。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

脸书的FBLearnerFlow

FBLearner Flow是脸书机器学习应用程序的灵魂。该平台可将机器学习工作流的不同元素自动化,如特征提取、训练、模型评估和推理等。FBLearner Flow集成了数个机器学习框架和工具,如脸书自己的Caffe2、PyTorch和ONNX。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

谷歌的TFX

谷歌还为执行机器学习工作流创建了自己的运行时。TFX的理论基础源于最近发表的一篇研究论文,该论文提出了一个简化TensorFlow操作程序的架构。TFX包括TensorFlow架构的几个关键组件,例如基于训练数据生成模型的学习器、分析和验证数据和模型的模块,以及为生产中的模型提供服务的基础设施。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

优步的Michelangelo

优步的Michelangelo是这个领域最著名的成果之一,这一成果为优步的数百个机器学习工作流的运行提供了支持。从实验到模型服务,Michelangelo运用主流技术来使机器学习应用程序的生命周期自动化。优步还用其他专有机器学习技术来做补充(如Horovod、PyML 或Pyro),这方面做得很出色。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

以上就是小芯总结的一些新兴体系结构,用于简化机器学习应用程序在现实中的应用。

相信随着机器学习的发展,会出现越来越多的参考体系结构和框架,它们也会成为全世界企业软件堆栈中不可或缺的一部分。继续推动着IT业,延伸至各行各业的发展。

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

来源:Pexels

5种“互联网巨头”开源参考体系结构,帮你构建大规模机器学习

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

相关推荐