独家｜一文读懂LinkedIn个性化推荐模型及建模原理

zhongjunlang

2017-12-18

独家｜一文读懂LinkedIn个性化推荐模型及建模原理

更多精彩请关注清华-青岛数据科学研究院官方公众微信平台“数据派THU”

原文标题：HowLinkedIn Makes Personalized Recommendations via Photon-ML Machine Learning tool

作者：Yiming Ma, Deepak Agarwal

翻译：张媛

校对：丁楠雅

本文长度为2500字，建议阅读8分钟

本文将重点关注个性化推荐模型，并解释建模原理以及如何通过Photon-ML来实现，使其能够惠及数亿用户。

简介

推荐系统是一种自动化的计算机应用程序，它可以根据不同的内容对用户进行匹配。这种系统的应用很普遍，并且已经成为我们日常生活中不可缺少的一部分。常见的例子像亚马逊给用户推荐产品，雅虎给访问网站的用户推荐内容，Netflix给用户推荐电影，LinkedIn给用户推荐工作等等。考虑到用户偏好存在明显的差异性，提供个性化推荐就成为这种系统成功的关键。

为了实现这个目标，通过机器学习模型从收集的反馈信息中估计用户偏好至关重要。这些模型是基于用户历史交互信息中获取的大量高频数据而构建的。本质上它们都是统计模型，需要克服序列决策过程、高维数据的交互建模，开发可伸缩的统计方法等诸多困难。在这个领域，新方法论的诞生需要各方面的紧密合作，包括计算机科学家、机器学习专家、统计学家、优化专家、系统专家、以及领域专家。这是大数据行业最令人兴奋的应用之一。

独家｜一文读懂LinkedIn个性化推荐模型及建模原理

LinkedIn的许多产品都应用了推荐系统，这些系统的核心组件是一个灵活的机器学习库，叫Photon-ML，这是提升我们的生产力、敏捷性以及开发人员幸福感的关键。目前我们已经开源了Photon-ML使用的大部分算法。在本文中，我们将重点关注个性化推荐模型，并解释建模原理以及如何通过Photon–ML来实现，使其惠及数亿用户。

Photon-ML的个性化模型构建

LinkedIn通过应用Photon-ML，显著提升了许多产品的用户参与度和业务指标。下面举例说明如何使用广义可加混合效应模型（GAME）进行个性化的工作推荐。在我们的在线对照实验中，该模型为求职者提供了比平时高出20%~40%的工作申请机会。

作为全球最大的职业社交网络，LinkedIn为其5亿多的用户提供了一个独特的价值定位，为他们的职业发展提供了各种各样的机会。我们提供的最重要的产品之一是“求职主页”，它是那些想要申请一份好工作的用户的服务中心。

独家｜一文读懂LinkedIn个性化推荐模型及建模原理

图1 LinkedIn求职主页的快照

图1页面的一个主要功能模块是“您可能感兴趣的工作”，这个页面会根据用户的公开资料和历史活动记录向他们推荐相关的工作简介。如果用户对推荐的工作感兴趣，他/她可以点击进入工作详情页面，进一步了解这个工作的职位、描述、职责、要求的技能和任职资格。工作详情页面也会提供“申请”按钮，可以让用户通过LinkedIn或者公司的招聘网站一键申请到这个工作。LinkedIn业务成功的关键指标之一就是工作申请的点击总量（即“申请”按钮的点击次数）。

我们模型的目标是准确预测一个用户申请系统推荐工作的概率。直观地来说，该模型由三个组件/子模型组成：

一个全局模型，用来捕获用户申请工作的常规行为；
一个特定用户模型，其参数（从数据中学习获得）针对特定用户，以捕获其偏离常规行为的个人行为；
一个特定职业模型，其参数（从数据中学习获得）针对特定职业，以捕获其偏离常规工作的独特行为。

与很多推荐系统应用程序一样，我们在大量的用户或者职业数据中观察到许多差异性。在求职网站上既有新用户加入（因此几乎没有相关数据），也有那些拥有很强求职意向并在过去多次申请工作的用户。同样的，对比不同类型的工作，既有受欢迎的，也有比较冷门的。对于拥有很多工作申请数据的用户，我们希望应用特定用户模型来计算，另一方面，如果用户没有很多历史数据，我们会选择全局模型来捕获用户常规行为。

接下来让我们深入研究一下这个广义可加混合效应模型（GAME）是如何基于上述情况实现个性化推荐的。

首先，用 ymjt 表示用户m在上下文t的条件下是否申请工作j的二进制结果，其中上下文内容通常包括工作时间和位置。我们用qm表示用户m的特征向量，其中包括从用户公开的资料中得到的特征信息，例如用户的工作岗位、工作职能、教育背景、所属行业等。我们用sj表示工作j的特征向量，其中包括工作的特征信息，例如职位名称、所需技能和工作经验等。

然后用xmjt表示三维变量(m, j, t)的整体特征向量，包括qm和sj特征的主要影响，qm和sj的外积用来表示用户、工作特征以及上下文的特征。其中xmjt不包含用户ID和项目ID，这些ID将会受到与常规特性不同的处理方法。利用逻辑回归法预测用户m申请工作j的可能性的GAME模型如下：

独家｜一文读懂LinkedIn个性化推荐模型及建模原理

其中

独家｜一文读懂LinkedIn个性化推荐模型及建模原理

是关联函数，b是全局系数向量（在统计学文献中也叫固定效应系数），αm和βj是特定于用户m和工作j的系数向量，也叫随机效应系数，用来表示用户m在不同项目上的偏好和工作j对不同用户的吸引力。对于一个在过去申请很多职位的用户，我们能够准确地估计他/她的个人系数向量αm并提供个性化的预测。另一方面，如果用户m过去没有申请记录，αm的后验平均值将会接近0，针对用户m的模型将会退回到全局固定效应x'mjtb，同样的道理也适用于工作系数向量βj。

Photon-ML：构建个性化推荐模型的可伸缩平台

为了在 Hadoop集群上使用大量数据对模型进行训练，我们在Apache Spark上层开发了Photon-ML。设计可伸缩算法的一个主要挑战是要从数据中学习海量的模型参数（例如数百亿），如果我们简单地利用标准机器学习方法来训练模型（比如 Spark 提供的 MLlib），那么更新大量参数带来的网络通信成本太高，在实际计算中不可行。其中大量参数主要来自于特定用户模型和特定职业模型，因此，使算法具有可伸缩性的关键是避免在上述模型中向集群传送或广播大量参数。

我们使用并行块坐标下降法（PBCD）来解决大规模的模型训练问题，在这个方法中，通过迭代法训练全局模型、特定用户模型以及特定职位模型最终达到收敛的状态。其中使用标准分布式梯度下降法对全局模型进行训练，对于特定用户模型和特定职业模型，我们设计了一个模型参数更新方案，这样上述模型中的参数不需要通过集群里的机器进行通信。但是，每个训练示例的部分评分是通过机器之间的通信完成的，这样大大降低了通信成本。同时PBCD也可以很容易地应用到拥有不同类型子模型的模型中。

结论和展望未来

在本文中，我们简要介绍了怎样使用 Photon-ML来实现个性化推荐，由于篇幅限制，很多有趣的优化和实施细节都被省略了，在此强烈推荐读者去查看Photon-ML开源源码。在LinkedIn, 我们致力于构建最先进的推荐系统，并且也为 Photon-ML制订了令人兴奋的计划，在不久的将来，我们计划在 Photon-ML中增加更多的建模功能，包括树状模型和不同的深度学习算法来构建非线性和更深层次的表示结构。

原文地址：

https://www.kdnuggets.com/2017/10/linkedin-personalized-recommendations-photon-ml.html

编辑：黄继彦

独家｜一文读懂LinkedIn个性化推荐模型及建模原理

张媛，某云计算公司不务正业服务工程师一枚。喜欢下雨天，读闲书，缺乏技术细胞，欣赏并喜欢有态度有立场的人，爱浪漫，注重仪式感，喜欢记录。最近的愿望是拥有自己的小窝，给想念的人写一封信。

更多精彩请关注清华-青岛数据科学研究院官方公众微信平台“数据派THU”

机器学习领英

zhongjunlang

0 关注 0 粉丝 0 动态

相关推荐

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 5评论 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 5评论 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 8评论 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 12评论 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 12评论 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 6评论 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 8评论 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 12评论 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 5评论 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 8评论 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 12评论 2020-11-10

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 15评论 2020-11-09

zhongjunlang

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号