六条规则让你更快部署机器学习模型!

点击上方关注,All in AI中国

作者:Mike Bernico

数据科学和机器学习几乎可以改善组织的任何方面的业务,但其前提是企业的想法得到了实施。在过去的一年里,我们学到了很多关于更快地构建和部署机器学习模型的知识,我们希望分享一些我们在这里学到的东西。

六条规则让你更快部署机器学习模型!

猎豹在棕色的田野上奔跑

情况介绍

在我们的组织中,我们需要尽快为我们的分析投资产生回报。我们需要更快地将机器学习模型部署到生产中。最重要的是,我们不希望很好的想法却束之高阁。

传统上,我们将每个数据产品构建为定制解决方案。每个自定义解决方案之间几乎没有重复应用。我们需要的是数据产品的装配线。

因此,我们构建了一条用于构建、测试和部署数据产品的装配线,我们将之为机器学习平台。有了它,我们现在可以在几分钟内将模型部署到生产中。我们不再需要等待很长时间才能获得分析投资的回报。

我们在此过程中学到了什么

在此过程中,我们学习了一些有关如何安全快速地构建、测试和部署机器学习模型的重要规则。这些规则改变了我们的工作方式,希望发现它们对你和你的组织有用。

(1)采用自助服务

在我们的机器学习平台存在之前,数据科学家将创建的模型交给IT团队,以便他们可以为每个模型创建数据管道和模型部署环境。有些模型在部署之前甚至被改写为不同的语言。

我们构建了机器学习平台,为模型构建者提供了通过内部模型治理流程自行部署模型的能力。自助服务是加快发展的关键。

(2)使用容器来提供基础设施的抽象

容器提供了隔离和版本模型的好方法。如果你的组织使用标准服务器负载,可能会发现很难在该标准服务器上安装依赖项和工件,容器解决了这个问题。你可能发现由服务器管理人员安装软件包需要太长时间,容器也解决了这个问题。你可能需要在一段时间内托管同一模型的新版本和旧版本,每个版本都需要一组不同的依赖项,容器也有助于版本控制策略。

(3)数据科学家需要关心代码质量

为数据科学家提供自助服务部署模型到生产的能力,同时还有编写产品质量代码的责任。这可能意味着你的模型构建团队必须完成他们的软件工程游戏。而了解一点Python语法并调用API,并不能使你成为一名优秀的软件工程师。当你构建组织将在生产系统中使用的软件时,软件质量与数据和模型质量一样重要。

这可能意味着采用测试驱动开发和代码审查等实践,这意味着尝试配对编程。在你使用它时,应该仔细考虑使用笔记本电脑的方式和时间以及对软件质量的影响。幸运的是,这些模式在软件工程领域是众所周知的,并且对于大多数群体来说都是可以采用的。

(4)如果没有自动化,则不会完成。

平台速度和稳定性都取决于模型部署平台和流程的自动化。如果你想加快速度,那么在采用自动化方面要毫不妥协。

在我们的机器学习平台上,我们实现了整个模型生命周期的自动化。持续集成和持续交付驱动模型测试和平台上的模型部署。

我们还实现了底层平台基础设施的配置和部署的自动化。通过这样做,我们的团队学会了将这些自动化虚拟机视为可支配资源。不需要人员登录到服务器进行管理,所有管理任务都是自动化的。这意味着无论扩展多少,每个服务器都会得到一致的配置。我们不是升级服务器,而是自动使用新的基础设施重新部署平台。

(5)构建支持整个模型生命周期的平台

到目前为止,我们专注于构建、培训和部署,但这只是机器学习模型生命周期的第一部分。许多模型经历漂移,并随着时间推移性能下降。而部署的模型需要进行监控和重新安装,每个部署的模型都应记录所有输入、输出和异常。模型部署平台需要提供日志存储和模型性能可视化。

在我们的机器学习平台上,每个模型都将每个执行记录为通用格式。每个托管模型应用程序都以通用方式发出日志。我们路由和存储这些日志,使用它们来监控模型性能,并帮助识别漂移。最后,我们会自动创建模型仪表板,以提供有关每个模型执行情况的其他见解。

密切关注模型性能是有效管理机器学习模型生命周期的关键。你不能忽视模型监控作为模型整个生命周期的一部分。

(6)标准化的共同开发方法

软件工程师提出了可用于构建便携式和弹性应用程序的出色方法和设计模式。如果你的模型构建者了解这些方法,那么很多方法都可以轻松地适应机器学习应用程序。

六条规则让你更快部署机器学习模型!

机器学习平台的非正式格言

获得的结果

结合这六条规则有助于我们获得更快的结果,我希望它们也能为你的组织提供帮助。数据科学应该是关于创建具有影响力的软件。如果有的话,白皮书、仪表板、文字云和饼图就不会再削减它,而获得成果需要付出更多的努力。

这不是一条容易的道路。苹果公司创始人史蒂夫•乔布斯说:"在优秀的创意与产品之间隔着巨大的鸿沟。"为了快速进入市场,可能需要采用DevOps。这意味着你的团队可能需要升级其软件工程技能组合。

但是这是值得的。过去有时需要12个月的时间的工作现在需要几分钟才能完成。更重要的是,我们不是在构建分析货架。

六条规则让你更快部署机器学习模型!

相关推荐