新手入门大数据 Hadoop基础与电商行为日志分析(一)
chuanshang一个案例:美国一女高中生收到婴儿产品的推荐,被他的父亲向商场投诉,结果最终,意识到女儿真的怀了孕。
大数据的4V特征:
数据量 volume
速度 velocity
基于高度分析的价值 value (数据量与有用的数据价值可能是成反比的)
多样性 variety
大数据带来的技术变革
技术驱动:数据量大 存储:文件存储-->分布式存储 计算:单机 --> 分布式计算 网络:万兆 DB :RDBMS --> NOSQL (HBase/Redis...)
大数据技术概念:
单机:CPU Memory disk 分布式并行计算/处理
货物搬到船上,是一个数据采集
处理:小于多少的石头扔了 精细化的筛选
大数据的几个重要部分:
1.采集 flume/sqoop 2.存储 hadoop 3.数据处理/挖掘/分析 hadoop spark flink 4.可视化
大数据典型应用:
1.报表 2.用户画像 3. 指标监控 4.指标预警 (时效性的要求逐级变大)
学习一个新技术,直接看他的官网最好
Hadoop,hive,hbase都是Apache社区下面的顶级开源项目
地址: hadoop.apache.org
hive.apache.org hbase.apache.org
reliable,scalable,distributed computing.(可依赖,可拓展,分布式计算)
Hadoop:提供分布式的存储(一个文件被拆分成很多块,并且以副本的方式存储在各个节点中)和计算
是一个分布式的系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用
分布式文件系统:HDFS 实现将文件分布式存储在很多的服务器上
分布式计算框架:Mapreduce 实现在很多机器上进行分布式并行计算
分布式资源调度框架:YARN 实现集群资源管理以及作业的调度