专访 | Angel团队负责人黄明：历时半年，腾讯Angel为了开源都经历了些什么？

snaillup

2019-06-21

机器之心原创

作者：高静宜

2017 年 6 月 16 日，腾讯新一代高性能计算平台 Angel 在 Github 上低调开源。开源两周，这个项目在 Github 上持续得到关注，截至目前为止，已收获 183 Watch，1693 Star，389 Fork，也吸引了许多业界工程师对分布式机器学习平台架构的优化与算法性能的提升展开了深入的讨论与交流。

专访 | Angel团队负责人黄明：历时半年，腾讯Angel为了开源都经历了些什么？

Github 上，其他团队的研发人员与 Angel 开发团队就问题进行探讨

这并不是 Angel 的首次亮相，去年 5 月，面向高维度机器学习的分布式计算框架 Angel 进入大众视野；12 月 18 日，在深圳举办的腾讯大数据技术峰会暨 KDD China 技术峰会上，腾讯大数据宣布推出了面向机器学习的第三代高性能计算平台 Angel，主打易用性，不仅提供机器学习算法库以及友好的编程接口，还内置数据自动切分、数据计算和模型划分的自动方案及异步控制等功能并支持多种高维度机器学习场景。（详见《腾讯大数据将开源高性能计算平台 Angel，机器之心专访开发团队》）

当时，腾讯曾表示将于 2017 年一季度开放其源代码，为什么超出预期一个季度才开源 Angel 平台？历时半年，Angel 平台在技术方面有哪些更新与优化？是否有重大升级？为此，机器之心专访腾讯数据平台部智能学习平台技术负责人黄明，深入了解新一代 Angel 平台的背后的故事以及技术方面的亮点。

新一代 Angel 平台由腾讯和北京大学联合开发，黄明介绍，这半年来，团队做了大量的重构工作，包括相关自动化单元测试以及中文详细文档准备。在重构过程中，团队还做了两个大动作：一是引入 Spark on Angel，二是把性能优化到比 XGBoost 还快。「这其中的工作量是非常大的，超出了最初的预期，很多事情就这样连带着做了，还好老大们没给太大的压力。一直到 6 月中旬我们觉得项目挺完善了，各个性能比对都充分了，才正式开源了这个平台。一开始，我们并没有想宣传这件事，只在腾讯内部发表了相关文章，没想到机器之心很快就发现了我们的动作，帮助我们把 Github 上的相关信息分享给大家了。」黄明笑着解释道。（详见《腾讯 Angel 1.0 正式版发布：基于 Java 与 Scala 的机器学习高性能计算平台》）

在谈及新一代 Angel 平台时，黄明表示，Spark on Angel 是此次平台升级的一大亮点，而 Spark 只是 Angel 生态圈的第一个成员。「之前业界有过不少关于 Spark on PS 的讨论，Yahoo 也有相关的研究，但是并没开源。有一个小的开源项目 Glint，也是做 Spark on PS 的，但是在性能和功能上都有所欠缺，比如不支持 psFunc，而且也没有人维护。这次腾讯开源 Angel 的时候，直接将 Spark on Angel 也开源了，希望能够带动更多的 Spark 工程师投入到机器学习的领域中，利用 Spark 和 Angel 配合来做机器学习。另外，透露一下，在下一个小版本中，会推出 Spark Streaming on Angel，Angel 也将可以支持在线学习。」

经过反复的改进与迭代，Angel 在性能、功能以及开发者易用性都有了显著的提升，开源前夕，Angel 就已经具备超越 XGBoost 和 Spark 的性能表现。此次升级主要表现在三个方面：

专访 | Angel团队负责人黄明：历时半年，腾讯Angel为了开源都经历了些什么？

生态性: 引入 PSAgent，支持 PS-Service，便于接入其它机器学习框架

函数性: 融合函数式编程特性，自定义 psFunc，利于开发复杂算法

灵活性: 支持 Spark-on-Angel，Spark 无需修改内核，运行于 PS 模式之上

以下为新一代 Angel 开源平台架构升级以及性能优势方面的具体介绍。

专访 | Angel团队负责人黄明：历时半年，腾讯Angel为了开源都经历了些什么？

三大架构升级

1.PSService

据 Andy 介绍，在新一代的 Angel 开发中，研发团队对系统进行了一次重要升级，引入了 PSAgent，对 PSServer 的服务端进行隔离，从而提供了 PSService 的功能。升级后，系统的架构设计如下：

新加入的中间层 PSAnget 有以下特性：

对外屏蔽 PSServer 中的模型分片，路由以及模型重组等复杂细节，提供封装好的模型操作接口

内置 Hogwild! 机制，包含模型缓存和模型预取等性能优化

提供模型缓存（Cache）的更新和合并的功能，大大降低网络通信开销

PSAgent 的引入使 PSClient 不再直接和 PSServer 打交道，而是通过 PSAgent 进行沟通。这样的调整解耦了 PSServer 和 Worker，使 Angel 具备了 PSService 的能力。同时，Angel 的 PSServer 也不再只服务于 Angel 的 Client，只要能够实现 AngelPSClient 接口，其它机器学习框架也能可以接入 Angel。

PSService 不仅为新一代 Angel 打下了坚实的基础，也从架构的层面上，为接入 Spark 和深度学习计算框架提供了可能。

2.psFunc

提供 Model 的拉取（pull/get）和推送（push/update）是标准 Parameter Server 的一个功能。很多早期的 PS 是在 HBase，Redis 等分布式存储系统的基础上，进行简单的模型更新和获取而搭建的。

但在实际应用中，算法对 PSServer 上参数的获取和更新，却并非这样简单。尤其是在复杂的算法需要实施一些特定的优化时，简单的 PS 系统就无法应对这些需求了。以求取矩阵模型中某一行的最大值为例，如果 PS 系统只有基本的 Pull 接口，那么 PSClient 只能先将该行的所有列都从参数服务器上拉取回来，然后再在 Worker 上计算得到最大值。这个过程会产生许多网络通信开销，对性能造成影响。同样的情况下，如果可以设置一个自定义函数，那么每个 PSServer 就可以先远程计算出 n 个局部最大值，再交换确认全局最大值，只需返回 1 个数值就可以完成任务。这样的方式算产生的计算开销接近，但通信开销却将大大降低。

为了解决类似的问题，Angel 引入并实现 psFunc 的概念，对远程模型的获取和更新的流程进行了封装和抽象。这也是一种用户自定义函数（UDF），因与 PS 操作密切相关，也被成为 psFunc，简称 psf，其整体架构如下：

专访 | Angel团队负责人黄明：历时半年，腾讯Angel为了开源都经历了些什么？

psFunc 的引入促使 PSServer 端也会发生模型计算，相应地，PSServer 也会承担一定的模型计算职责，而不是单纯的实现模型存储功能。「用户可以灵活地自定义自己的算子，合理设计 psFunc 能够大幅度加速算法运行。」黄明解释道。

3.Spark on Angel

Spark 是目前非常流行的分布式内存计算框架，其核心概念是 RDD。不可变性是 RDD 的关键特性之一，它可以规避分布式环境下各种奇怪的复杂并行问题，进而快速开发各种分布式数据处理算法。然而在机器学习的时代，这个设计反而制约了 Spark 的发展。这源于机器学习核心——迭代和参数更新，RDD 的不可变性并不适合参数反复多次更新的需求，因此许多 Spark 机器学习算法的实现都非常的曲折而且不直观。

在 Angel 提供的 PSService 和 psFunc 基础上，Spark 可以充分利用 Angel 的 PS，可以以最小的修改代价，实现高速训练大模型的能力。

Spark on Angel 实现的基本架构设计如下：

这个实现过程较为灵活，利用插件式设计，对 Spark 没有任何侵入式修改，完全兼容社区 Spark，对原生 Spark 程序不会产生任何影响。它的基本执行流程如下：

启动 SparkSession

初始化 PSContext，启动 Angel 的 PSServer

创建 PSModelPool, 申请到 PSVector

核心实现

在 RDD 运算中，直接调用 PSVector 进行模型更新，让真正运行的 Task 调用 AngelPSClient 对远程 PSServer 进行操作。

终止 PSContext

停止 SparkSession

在线上，基于真实的数据，研发团队对 Spark on Angel 和 Spark 的做了性能对比测试，结果如下：

显而易见，Spark on Angel 能轻松获得 30% 甚至更多的加速比，而且越复杂的算法和模型，性能提高的比例越大。虽然 PSServer 会耗费了额外的资源，但是考虑算法编写的便捷以及性能的提升方面，这仍是一个划算、合适的选择。对于 Spark 的老用户，这是低成本切入 Angel 的一个途径，也是算法工程师基于 Spark 实现高难度算法的有效方式。

三大性能提升

新版本 Angel 添加诸多新功能的最终目的，就是让算法工程师能更加从容地进行算法优化，进而让算法的性能可以得到了一个飞跃的提升。

1.GBDT

众所周知，近年来 XGBoost 在众多算法比赛中大放异彩。GBDT 算法正是 XGBoost 的强项之一，不过，Angel 的 GBDT 算法仍在性能上实现了超越。

专访 | Angel团队负责人黄明：历时半年，腾讯Angel为了开源都经历了些什么？

(数据：腾讯内部某性别预测数据集，3.3×105 特征，1.2×108 样本)

可以看到，这次发布的性能比对版本相较之前有所不同，其中加入了 XGBoost 的比较。对此，黄明表示，「在 Angel 的开发过程中，我们一直都是在同 Petuum 和 Spark 对标性能。但是在我们进行开源工作时，Petuum 已经接受风投不再开源了（2016 年 12 月）。而且，我们在开源的过程中，其实是不断地对 Angel 做架构升级和代码优化的，如果只针对 Spark 进行对标的话，是很没挑战的事。当时有个同事觉得，XGBoost 的 GBDT 算法是业界的标杆之一，因为做 Kaggle 比赛的人基本都会考虑使用，那么我们是不是可以超越它？于是我们头脑风暴了一下，就把这个定为重构目标之一了。一开始，差距还是比较大的，后来我们进行了优化，也做了很多工作，包括在基于 psFunc 重构完成后，把一些最佳分裂点的计算和合并，移到 psServer 上做，才超越了 XGBoost。」

2.LDA

LDA 是一个非常消耗资源的主题模型算法，新一代的 Angel 在 LDA 上的性能不但超越了 Spark，而且已经超越了之前开源过的 Petuum。Andy 解释称：「本来我们计划对标 Petuum，不过 Petuum 早已不再开源了，所以很多方面也不再具备可比性，不过我们的性能与 Pettum 相比可以快五倍左右。」

（数据：PubMED）

3.GD-LR

LR 是广告推荐中广泛应用的一个算法，Angel 分别提供了利用 Gradient Descent、ADMM 两种优化方法计算的 LR 算法。这两种算法，无论是耗费的资源，还是性能、收敛速度，都远比原生的 Spark 实现优越。

(1). GD-LR

专访 | Angel团队负责人黄明：历时半年，腾讯Angel为了开源都经历了些什么？

（数据：腾讯内部某推荐数据，5×107 特征，8×107 样本）

(2).ADMM-LR

专访 | Angel团队负责人黄明：历时半年，腾讯Angel为了开源都经历了些什么？

（数据：腾讯内部某推荐数据，5 千万特征，1 亿样本）

关于这个 ADMM－LR 算法的比较，黄明笑谈，「其实开源版本的 Spark 是没有这个算法的，也是我们之前为了支持腾讯内部业务而开发的。而原来开发 Spark 版本的时候，我们持续优化了很久，基本把 Spark 性能压榨到了极致。以至于 Spark on Angel 版本的算法，比它快不了多少，所以这里就被列出来了。不过还好，就是这样子，Angel 版本的算法还是比 Spark 版本的，快了很多的。」

在谈到这次开源的性能比对时，黄明提到，他们的原则是基于生产数据以及现网环境，尽量保证公平。首先，数据集是相同的，都以腾讯正式的数据集为主。由于数据量都非常大，因此跑起来很耗费资源，需要在现网集群上运行。在做运维的同学的协助之下，才能有相对合适的环境来比对。黄明解释道，「比如有些数据集，Spark 跑起来的话，需要分配 50G 内存给 Driver 才可能跑得过去，其实不是所有现网集群都具备运行这个作业能力的。我们也需要反复尝试和调优各种参数，才能让 PK 双方尽可能公平地在同样的 Worker，Core，内存，网络条件下运行。这个过程其实又把开源延迟了 1 个月。不过从整体上来看，我们觉得这个花费还是值得的。」

最后黄明表示：「在此之前，Angel 平台一直只在腾讯内部使用，而今的开源仍处于初级阶段，后续会基于 PS-Service，接入更多深度学习的框架，例如 TensorFlow，来切入深度学习领域。希望 Angel 可以吸引更多的开发者用户加入我们的生态中来，借助开源的力量让大家共同探索未来机器学习领域的各种可能性。」

机器学习 spark

snaillup

0 关注 0 粉丝 0 动态

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 2020-11-10

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 2020-11-09

snaillup

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号