AI一步到位,Databricks发布开源机器学习工作流程工具包
Databricks宣布其统一分析平台的新功能旨在帮助降低企业利用人工智能的障碍。本周,该公司在旧金山的Spark + AI峰会上推出了MLflow,ML的Databricks运行时和Databricks Delta。
据该公司介绍,这些新功能旨在简化分布式机器学习和机器学习工作流程,并在规模上增加数据可靠性和性能。
该公司解释说,数据对于机器学习至关重要,但由于开发过程缺乏重现结果,跟踪实验和管理模型的工具,因此在生产中使用机器学习可能很困难。 MLflow是一个用于简化机器学习工作流程的开源工具包,是为了回应这个问题而创建的。
Databricks表示,利用MLflow,企业将能够打包代码以进行可重现的运行,执行和比较数百个并行实验,利用任何硬件或软件平台,以及将模型部署到生产环境。MLflow还集成了Apache Spark,SciKit-Learn,TensorFlow和其他开源机器学习框架。
Databricks的联合创始人兼首席技术专家Matei Zaharia说,“在构建Web或移动应用程序时,企业知道如何做到这一点,因为我们已经构建了工具包,工作流和参考架构。但是没有机器学习的工具包,它迫使企业拼凑解决方案,并确保高度专业化的技能来实现人工智能。MLflow是以可重复的方式开发机器学习应用程序的统一工具包,同时灵活地在多个云环境中可靠地部署生产。”
ML的Databricks Runtime旨在消除深度学习所需的分布式计算的复杂性。该公司还引入了对AWS和微软Azure的GPU支持,以扩展深度学习。Databricks解释说,数据科学家将能够将数据集提供给模型,在一个统一的引擎上评估和部署AI模型。
最后,该公司旨在通过引入数据管理系统Databricks Delta来简化数据工程,以简化大规模数据管理。通过这个解决方案,Databricks表示,企业不会被迫在存储系统属性之间做出权衡或花费资源在系统间移动数据。现在,数百个应用程序能够以大规模和低成本可靠地上载,查询和更新数据。
Databricks的联合创始人兼首席执行官Ali Ghodsi表示,“为了从人工智能中获得价值,企业依赖于他们现有的数据以及在海量数据集上迭代进行机器学习的能力。今天的数据工程师和数据科学家们使用众多断开连接的工具来完成这一任务,包括机器学习框架的集合。企业和技术孤岛造成了摩擦并减缓了项目速度,成为AI项目高度迭代性的障碍。统一分析是增加数据工程师和数据科学家之间的协作,统一数据处理和AI技术的方法。”