大佬十年终成真经:基于Apache Kylin,构建大数据分析平台
Apache Kylin是个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及名维分析(OLAP)地加以支持超大规模数据,最初由eBay公司开发并贞献至开源社区。它能在业秒内查潮巨大的Hive表。
本篇适合大数据技术初学者、大数据分析人员、大数据架构师等,也适合用高等院校和培训学校相关专业师生教学参考。
伴随着大数据发展的三条主线是大数据技术、大数据思维和大数据实践。
因为RDBMS很难处理单表10亿行数据,所以大数据技术应需而生。大数据技术从最初的解决海量数据的快速存储和读取,到今天的海量数据的OLAP,当中衍生出众多的技术产品,Apache Kylin就是其中的一一个优秀产品, 目标是解决大数据范畴中的OLAP。
第二条主线是大数据思维。数据处理的最近几十年都被RDBMS的思想所束缚,小表、多表、表的连接、过分注重冗余性的坏处,等等,这些都限制了海量数据.上的处理与分析。大数据技术出来之后,随之而来的大数据思路,给我们带来了海量数据处理的新思维。这个新思维的核心就是突破表的概念,而采用面向对象的数据模型在数据层上实现。Apache Kylin 的Cube模型就是在逐步体现大数据的思维。
最后一条主线是大数据实践。大数据实践分为数据梳理、数据建模、数据采集、数据管控、数据服务、数据可视化和数据分析。这是-一环套一环的步骤, 不能跳过。Apache Kylin作为数据分析环节的技术产品,一定要同数据管理的优秀产品相结合,才能充分发挥出分析的功效。
本篇分为21章,详细讲解Apache Kylin 概念、安装、配置、部署,让读者对Apache Kylin构建大数据分析平台有一个感性认识。同时,从应用角度,结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。最后还介绍了Kyligence公司发们KAP大数据分析平台,对读者们极大的参考价值。
由于细节内容实在太多啦,所以只把部分知识点截图出来粗略的介绍,每个小节点里面都有更细化的内容!
总体的目录大家应该都了解了一下,总共21章的内容,大家要深入的去学习,以至于运用到自己的工作当中,能够给予自己很大帮助的东西,才是最有价值的东西。
因文章篇幅限制,小编在这里就不多做介绍了,希望大家能够潜心修炼自己,不断地强大自身,以达到别人仰望的角度。
需要本基于Apache Kylin:构建大数据分析平台技术文档的小伙伴,就可以转发此文关注小编,私信小编“学习”来得到获取方式吧。