保障 Hadoop 数据安全的十大措施

Dataguise最近发布了Hadoop十大数据安全措施,内容涵盖隐私风险、数据管理和信息安全等,可以帮助专业人士降低大数据应用的潜在数据泄漏和政策违规等风险,对于那些考虑部署Hadoop的企业来说非常值得参考。

Dataguise为多家财富200强企业提供Hadoop安全服务,总结出了一套适合大规模多样化环境的大数据安全实践和流程。

大数据分析向来伴随着隐私话题和争议,在大数据分析中的海量数据里,难免会出现姓名、地址和身份号码等个人隐私信息PII(Personally Identifiable Information)。

而大量金融数据中类似信用卡和银行账户号码中难免也会携带上述个人信息,对这些数据的访问将引起极大的争议。但是通过缜密的计划、测试、生产预备工作,以及对大数据技术的合理应用,大多数隐私问题都可以得到缓解。

以下是Dataguise给出的Hadoop项目实施的最佳安全实践,尤其对项目初期的规划阶段有重要参考价值:

1.数据隐私措施越早越好。在规划阶段就明确数据隐私保护策略,最好在将数据导入Hadoop之前完成,这可以防患未然。

2.明确你所在企业中哪些数据元素属于敏感数据。充分考虑企业的隐私政策,相关行业规定和政府法规。

3.审视分析环境和装配Hadoop系统的过程中是否藏有/夹带敏感数据。

4.收集足够信息来明确合规风险。

5.明确业务分析是否需要访问真实数据,或“脱敏”数据能否使用。然后选择合适的敏感信息遮挡和加密等矫正技术(masking or encryption)。遮挡(masking)技术提供最好的安全性能,而加密则更具灵活性,视将来的需要而定。

6.确保数据保护方案能够同时支持遮挡和加密两种数据矫正技术,尤其是当需要将经过遮挡处理和未经遮挡的两个版本的数据分别存放于不同的Hadoop目录下的时候。

7.确保数据保护技术对所有数据文件提供一致的masking方式,这样可以保证在各个数据汇聚维度上的分析的准确性。

8.确定特定数据集是否需要定制的保护方案,出于数据单元安全管理的需要,可以考虑将Hadoop目录划分成更小的群组。

9.确保你选择的加密方案与企业的访问控制技术能够互操作,这样特定级别和身份的用户只能访问Hadoop集群中特定的数据范围。

10.当需要使用加密技术的时候,确保部署合适的技术(Java、Pig等)实现无缝加密,同时确保对数据的无障碍访问。

通过及早启动并建立敏感数据预案,企业能尽早发现Hadoop环境中的敏感数据,分析合规风险并合理采用数据保护技术,这不但能大大降低数据泄漏和合规风险,还能提高大数据项目的投资回报。

相关推荐