LinkedIn数据基础设施简介

strongyoung

2010-12-25

来自LinkedIn的Jay Kreps在近日举办的Hadoop峰会上详细介绍了LinkedIn对数据的处理方式。Kreps介绍了LinkedIn每天是如何处理1.2千亿个关系并通过高容量、低延迟的站点服务来混合大量的数据计算的。

LinkedIn的很多重要数据都是离线的，移动起来相当慢。因此，他们将每天对Hadoop的批处理作为计算的重要组成部分。比如说，他们采用这种方式对其“People You May Know”产品数据进行预计算，这么做每天会在mapreduce管道（拥有82个Hadoop job）中产生1.2千亿个关系，需要16TB的临时数据。这个job使用了一个统计模型来预测两个人认识的概率。有趣的是，他们使用布隆过滤器（bloom filters）来加速巨大的连接关系，这提升了10倍的性能。

LinkedIn有两个工程师从事这个管道开发，他们每周可以测试5个新算法。为了实现这种变化率，他们使用A/B测试来比较新旧方法，使用“fly by instruments”方法来优化结果。为了提升性能，他们还需要操纵大范围数据：使用大范围集群处理。为了实现这个目标，他们从客户化的图处理代码迁移到了Hadoop mapreduce代码上：这需要一些周全的设计，因为很多图算法无法直接转换为mapreduce。

LinkedIn对开源项目投入巨大，希望构建出一流的组件并号召社区参与进来。其中两个开源项目构成了其数据基础设施的中心。Azkaban是个面向Hadoop的开源工作流系统，提供了类似于cron的调度，类似于make的依赖分析，还包含了重启。它用于控制ETL job，该job可以将数据库与事件日志推送到边缘服务器存储（Voldemort）中。

Voldemort是LinkedIn的NoSQL 键/值存储引擎。它每天都会向其站点推送出几十亿的边缘概率关系图，用于渲染网页时查询所用。这种数据是只读的：它是通过这些集群job计算出来的，但之后会实时通过搜索进行过滤，这么做会限定到用户感兴趣的某些公司，或是排除掉用户已经表明不认识的那些人。这个方法来源于使用数据库解决这个问题时所遇到的障碍，后者需要分片并迁移至完全依靠手工移动数据的系统。Voldemort完全是分布式且去中心化的，支持分区与容错。

LinkedIn通过同时获取Hadoop与Voldemort大范围的结果来更新服务器，预热缓存，然后分别在每个服务器上针对新一天的数据建立原子转换。他们会将前一天的数据保持在服务器上，这样一旦新一天的数据集出现了问题就可以立刻恢复过来。LinkedIn在其Hadoop管道上构建了一个索引结构：这会产生几个TB的查找结构，该结构完美地使用了散列（每个键只需要2.5个位）。这种处理权衡了集群计算资源以实现更快的服务器响应；LinkedIn大约需要90分钟时间在45个结点集群上构建900GB的数据。他们使用Hadoop来处理大块的批数据，这样其Hadoop集群就需要周期性地进行升级，但Voldemort则永远不需要。

感兴趣的读者可以查看演讲的幻灯片以进一步了解详情。

查看英文原文：LinkedIn's Data Infrastructure

from : http://www.infoq.com/cn/news/2010/08/linkedin-data-infrastructure

领英 target hadoop

安科网

LinkedIn数据基础设施简介

strongyoung

strongyoung

相关推荐

LinkedIn开源Dagli，发布Java机器学习函数库

LinkedIn 定制 Kafka，互联网大厂是如何每天处理 7 万亿条消息

敏捷开发之LinkedIn的高效代码评审技巧

伊朗国家黑客对LinkedIn用户使用恶意软件和网络钓鱼攻击

大规模采用 Kotlin 替代 Java？我们应该知道这些利弊

美国所有技术类新兴职业都涉及软件工程！

HtmlUnit实现Linkedin网站登录认证

专访领英副总裁张仁辉：如何驯服算法，打造世界级职位推荐系统？

超千人的庞大数据团队如何运作？对话LinkedIn数据科学负责人许亚

著名社交网站LinkedIn的Java架构技术

LinkedIn用Node替代Rails：减少了27台服务器速度提升20倍

饶军：Apache Kafka的过去，现在，和未来

「AI间谍」扰乱美国政坛，众议院提出法案打击Deepfake换脸技术

从知名专业社交网站linkedin数据库泄漏事件中引发的思考(图文)

揭秘LinkedIn！全球最大的招聘推荐系统如何被机器学习驱动？

独家｜一文读懂LinkedIn个性化推荐模型及建模原理

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

领英开源TonY：构建在Hadoop YARN上的TensorFlow框架

香港也抢AI人才了！科技人才入境计划1年引进1000人，最快2周审批

LinkedIn联合创始人：人工智能改变公司管理方式

strongyoung