编程就像游戏打怪升级一样，大佬分享Java到大数据学习的技术路线

bingdata

2018-06-14

关注关注

1、何为大数据？

大数据是指很多很多的数据，主要源于web2.0之后，数据库中的数据量累计起来很庞大，在对数据进行操作（主要指查询）会变得很慢，对机器的性能要求会很高，如果数据量达到足够大（如十几亿），那服务器会崩溃的

2、大数据解决什么问题？

大数据解决对海量数据的存储、查询、分析计算等操作，主要应用在利用庞大的数据归类分析用户的偏好，利用用户的历史信息得出相应的统计账单等，将同行业的大公司的数据进行计算分析，可以挖掘出一些隐含价值。

3、学习大数据的基础

1）java SE，EE(SSM)

因为90%的大数据框架都是java写的

2）SQL

特别是sql语句中的查询语句，因为对数据库的操作最多的是查询

使用Hadoop作为大数据的分布式存储、计算和分析 sql的操作会重要

3）Linux

大数据的框架安装在Linux操作系统上

编程就像游戏打怪升级一样，大佬分享Java到大数据学习的技术路线

linux操作基础

linux系统简介与安装
linux常用命令–文件操作
linux常用命令–用户管理与权限
linux常用命令–系统管理
linux常用命令–免密登陆配置与网络管理
linux上常用软件安装
linux本地yum源配置及yum软件安装
linux防火墙配置
linux高级文本处理命令cut、sed、awk
linux定时任务crontab

4、需要学什么

*第一方面：大数据离线分析*

一般处理T+1数据（T是指日、周、月、年），处理历史数据

模块1：Hadoop

包括四大块（common、yarn、MapReduce、HDFS）

主要掌握环境搭建、处理数据的思想

模块2：Hive

大数据数据仓库

通过写SQL对数据进行操作，类似于mysql数据库中的sql

内存数据库redis

redis和nosql简介
redis客户端连接
redis的string类型数据结构操作及应用-对象缓存
redis的list类型数据结构操作及应用案例-任务调度队列
redis的hash及set数据结构操作及应用案例-购物车
redis的sortedset数据结构操作及应用案例-排行榜

模块3：HBase

基于HDFS的NOSQL数据库

面向列的存储

协作框架：

sqoop（桥梁：HDFS 《==》RDBMS）

flume:收集日志文件中信息

调度框架anzkaban,

了解：crotab（Linux自带）、zeus(Alibaba)、Oozie(cloudera)

扩展前沿框架：kylin、impala、ElasticSearch（ES）

shell编程

shell编程–基本语法
shell编程–流程控制
shell编程–函数
shell编程–综合案例–自动化部署脚本

第二方面：大数据离线分析

以spark框架为主

Scala：OOP + FP

sparkCore:类比MapReduce

sparkSQL:类比hive

sparkStreaming：实时数据处理

kafka:消息队列

前沿框架扩展：flink

阿里巴巴 blink

编程就像游戏打怪升级一样，大佬分享Java到大数据学习的技术路线

第三方面：大数据机器学习（扩展）

spark MLlib:机器学习库

pyspark编程：Python和spark的结合

推荐系统

python数据分析

Python机器学习

大数据框架安装功能来划分

1、海量数据存储：

HDFS、Hive（本质存储数据还是hdfs）、HBASE、ES

2、海量数据分析：

MapReduce、Spark、SQL

最原始的Hadoop框架

数据存储：HDFS（Hadoop Distributed File System）

数据分析：MapReduce

Hadoop的起源

Google的三篇论文

虽然Google没有公布这三个产品的源码，

但是他发布了这三个产品的详细设计论文，

奠定了风靡全球的大数据算法的基础！

Hadoop介绍

大数据绝大多数框架，都属于Apache顶级项目

http://apache.org/

hadoop官网：

http://hadoop.apache.org/

分布式

相对于【集中式】

需要多台机器，进行协助完成。

元数据：记录数据的数据
 架构：
 主节点Master 老大，管理者
 管理
 从节点Slave 从属，奴隶，被管理者
 干活

Hadoop也是分布式架构

HDFS:

主节点：NameNode

决定着数据存储到那个DataNode上

从节点：DataNode

存储数据

**MapReduce:**

分而治之思想

将海量的数据划分为多个部分，每部分数据进行单独的处理，最后将所有结果进行合并

map task

单独处理每一部分的数据、

reduce task

合并map task的输出

**YARN:**

分布式集群资源管理框架，管理者集群的资源（Memory,cpu core）

合理调度分配给各个程序（MapReduce）使用

主节点：resourceManager

掌管集群中的资源

从节点：nodeManager

管理每台集群资源

**总结：Hadoop的安装部署**

都属于java进程，就是启动了JVM进程，运行服务。

HDFS：存储数据，提供分析的数据

NameNode/DataNode

YARN:提供程序运行的资源

ResourceManager/NodeManager

federation介绍和hive使用

Hadoop的HA机制
HA集群的安装部署
集群运维测试之Datanode动态上下线
集群运维测试之Namenode状态切换管理
集群运维测试之数据块的balance
HA下HDFS-API变化
hive简介
hive架构
hive安装部署
hvie初使用

好了，今天的知识就分享到这里，欢迎关注爱编程的南风，私信关键词：大数据，获取更多学习大数据的资源，如果文章对你有有帮助，请收藏关注，在今后与你分享更多学习大数据的文章。同时欢迎在下面评论区留言如何学习大数据。

大数据技术路线

安科网

编程就像游戏打怪升级一样，大佬分享Java到大数据学习的技术路线

bingdata

大数据框架安装功能来划分

bingdata

相关推荐

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

bingdata