开源大数据平台如何才能保证身份认证安全？

大数据实战派

2019-06-29

在古希腊神话中，Kerberos是住在冥河岸边的三头犬，负责看守冥界的入口。而在信息技术界，Kerberos是一种被广泛采用的网络认证协议，通过对称加密的技术，保护网络系统的安全。特别是在Hadoop开源大数据平台，Kerberos是唯一内置支持的安全的用户认证方式。它可以独立于各服务组件，保证只有通过身份认证的节点才可以访问对应的服务，进而维护开源大数据的系统安全。

作为开源大数据卫士的Kerberos，其安全性可靠性毋庸置疑，但是在运营维护和部署成本等方面，却会为规模较大的企业用户带来一笔不小的负担。通常，企业在接入Kerberos之前，已经在多个场景下配置了对应的身份认证系统。而Hadoop开源大数据平台所使用的Kerberos，并不能支持除Kerberos内置的用户名密码认证以外的其它认证机制，无法和企业已经部署的用户认证方式进行无缝对接。更让人烦恼的是，Java也没有一个完整的Kerberos库，很难对它进行更改。因此，要把已有的身份认证系统接入Kerberos的认证流程中，其开发难度和工作量都将会是非常庞大的。

开源大数据平台如何才能保证身份认证安全？

Kerberos 在现实中遇到的问题

Kerberos的这些问题，对腾讯AI Lab这样的企业级用户，造成了不小的困扰：腾讯AI Lab此前的大数据集群并没有启用身份认证，无法实现用户存储隔离，任意用户都可通过更改客户端的配置，伪造成超级用户访问所有内容。所以，必须把分散在不同服务上的认证方式都合并在一起，基于已有的大数据集群进行身份认证的二次开发。这要求开发者保证现有的服务不受影响，让用户可以沿用过去熟悉的认证方式，不能做太多的更改。同时，还不能用把所有用户账号信息都同步到新数据库的方式，因为这会增加大量的部署和运维成本。

为了帮助腾讯AI Lab应对这些挑战，在安全认证领域积累了丰富经验的英特尔大数据部门，基于英特尔®的数据中心平台，英特尔开发了可插拔的身份认证框架Hadoop Authentication Service (HAS)。它可以与现有的认证和授权体系对接，无需在已有的用户账号系统和Kerberos数据库之间迁移和同步用户账号信息，也不影响现有服务的连续性。同时，这种架构不需要独立维护自己的身份信息，减少了中间环节，大大降低了企业身份信息管理的复杂性和风险。

开源大数据平台如何才能保证身份认证安全？

HAS系统架构示意图

与传统的Kerberos不同，HAS在功能上包括了一个Token Authority和一个Apache Kerby 提供的Kerby KDC。Token Authority将其他已有认证系统的信息转换成HAS Token，再使用HAS Token向Kerby KDC换取Kerberos Ticket。拿到Kerberos Ticket后，就可以通过标准的Kerberos协议流程访问Hadoop集群的服务。

基于这样的技术手段，用户可以继续使用原先的Kerberos认证机制，也可以继续使用以前熟悉的认证方式登录。所有分散的服务都统一在一套认证系统中，无需再分别重新设置。与此同时，因为避免了用户账户信息的拷贝和同步，HAS降低了运营维护的复杂度和成本，和信息泄露的风险。

HAS不仅可以作为在Hadoop集群上通用集成的用户认证解决方案，更可以定制成插件与企业特有认证系统结合。针对腾讯AI Lab的需求，英特尔还定制了MySQL插件。当用户选择使用MySQL插件认证方式后，只需要在自己的环境中配置好账号信息，客户端就会自动完成用户身份认证。此外，英特尔还实现了自动化部署工具，一键部署Keytab与SSL证书，极大简化了部署与优化工作。

HAS能够帮助各种不同的云计算、大数据相关的行业用户，更便捷地以低成本部署身份认证系统。对英特尔的工程师而言：技术是为了服务用户，而不是为了展现自己的技术能力。开发HAS的初衷，就是为了方便用户的使用，将复杂的问题变得简单。

HAS还在不断地完善中，借助Intel® SGX技术，英特尔未来会进一步提高HAS的安全性。在Intel的下一代Xeon SP处理器上，将有机会运用SGX技术来隔离处理和存储HAS认证过程中产生和使用的敏感数据，让身份认证更加安全。

文章来源：雷锋网

大数据 kerberos 安全平台云计算英特尔