Flink入门

paypalmts

2019-06-28

Flink简介

Apache Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台，提供支持流处理和批处理两种类型应用的功能。
Apache Flink的前身是柏林理工大学一个研究性项目，在2014被Apache孵化器所接受，然后迅速地成为了Apache Software Foundation的顶级项目之一。

Flink 特点

现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理
Flink是完全支持流处理，也就是说作为流处理看待时输入数据流时无界的；批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。

Flink 组件栈

Flink入门

Deployment层

主要涉及了Flink的部署模式、Flink支持多种部署模式：本地、集群（Standalone/YARN）、云（GCE/EC2）.

Runtime层

Runtime层提供了支持Flink计算的全部核心实现，比如：支持分布式Stream处理、JobGraph到ExecutionGraph的映射、调度等等，为上层API层提供基础服务

API层

API层主要实现了面向无界Stream的流处理和面向Batch的批处理API，其中面向流处理对应DataStream API，面向批处理对应DataSet API

Libaries层

在API层之上构建的满足特定应用的实现计算框架，也分别对应于面向流处理和面向批处理两类。

Flink优势

支持高吞吐、低延迟、高性能的流处理
支持高度灵活的窗口（Window）操作
支持有状态计算的Exactly-once语义
提供DataStream API和DataSet API

Flink数据流和时间窗口

基本概念

Flink程序的基础构建模块是流（streams）与转换（transformations）。
每一个数据流起始于一个或多个source，并终止于一个或多个sink。

时间窗口

流上的聚合需要由窗口来划定范围，比如 “计算过去的5分钟” 或者 “最后100个元素的和”
窗口通常被区分为不同的类型，比如滚动窗口（没有重叠），滑动窗口（有重叠），以及会话窗口（由布活动的间隙所打断）

Flink分布式运行环境

Flink是基于Master-Slave风格的架构
Flink集群启动时，会启动一个JobManager进程、至少一个TaskManager进程

JobManager

Flink系统的协调者，他负责接受Flink Job ，调度组成Job的多个Task的执行
收集Job的状态信息，并管理Flink集群中从节点TaskManager

TaskManager

实际负责执行计算的Worder，在其上执行Flink Job的一组Task
TaskManager负责管理其所在节点上的资源信息，如内存、磁盘、网络，在启动的时候将资源的状态向JobManager汇报

Client

用户提交一个Flink程序时，会首先创建一个Client，该Client首先会对用户提交的Flink程序进行预处理，并提交到Flink集群
Client会将用户提交的Flink程序组装一个JobGraph，并且时以JobGraph的形式提交的

Flink安装

方式一

git clone https://github.com/apache/fli...
cd flink
mav clean package -DskipTests
cd build-target

方式二

到官网下载编译版：https://flink.apache.org/down...
不同环境下到bin目录，运行start-local.bat
运行正常，访问页面：http://localhost:8081

Flink入门

Flink入门

Flink WordCount入门程序

官方推荐快速搭建一个项目：

curl https://flink.apache.org/q/qu... | bash

flink 批处理 apache api

paypalmts

0 关注 0 粉丝 0 动态

相关推荐

【赵强老师】Flink的DataSet算子

Flink为了能够处理有边界的数据集和无边界的数据集，提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。下面我们通过具体的

raidtest 2020-10-09

入门大数据---Flink开发环境搭建

Flink 分别提供了基于 Java 语言和 Scala 语言的 API ，如果想要使用 Scala 语言来开发 Flink 程序，可以通过在 IDEA 中安装 Scala 插件来提供语法提示，代码高亮等功能。打开 IDEA , 依次点击 File =&g

匆匆那些年 2020-06-27

ARTS-WEEK-004

拨云见日的一周。借助树的递归遍历，而递归函数的关键是处理这个子树应该返回什么，再细分就是终止条件返回什么、后续递归结果处理什么。补充，这类树或DAG在实际应用中更多是通过parent节点串联起来，这时找最近公共祖先变成了第160题的找两个链表的交点。Fli

oXiaoChong 2020-06-20

flink01

Apache Flink是一个分布式大数据处理引擎，可以对有限数据流和无限流数据及逆行有状态计算（不太懂）。可以部署在各种集群环境，对各种大小的数据规模进行快速计算。将配置好的Flink安装包拷?for i in {4..7}; do scp -r fli

yuchuanchen 2020-06-16

带配置文件参数启动Flink任务

启动Flink任务方法的命令为flink run flink.jar但是有时候启动时需要向里面传入一些参数，比如配置文件的路径等。String local_path = parameters.get; //指定参数名：local_path. 代码打包完成

Spark高级玩法 2020-06-14

通过Flink+NBI可视化构建实时大数据分析系统

Flink主要特点：1、高吞吐、低延迟、纯流式架构；2、支持对乱序事件的处理；3、有状态、提供exactly-once计算；4、高度灵活的窗口机制；5、失败恢复、故障转移、水平扩展；6、批处理、流处理统一的APINBI大数据可视化：

Leonwey 2020-06-11

Flink DataStream API

Flink程序可以对分布式集合进行转换。根据数据源的类型，可以编写批处理程序或流处理程序，其中使用DataSet API进行批处理，并使用DataStream API进行流处理。Flink有特殊的类DataSet和DataStream来表示程序中的数据。在

Spark高级玩法 2020-06-09

Flink SavePoint

Savepoint 是检查点的一种特殊实现，底层实现其实也是使用 Checkpoint 的机制。Savepoint 是用户以手工命令的方式触发 Checkpoint，并将结果持久化到指定的存储路径。现从端到端的 Exactly-Once 语义保证。可以不用

文报 2020-06-09

Flink Java踩坑记录（gegge1.10.0）

使用Flink，从阿里云的AMQP中获取数据，然后直接写入到InfluxDB中。

zhangxiaocc 2020-06-08

异步屏障快照ABS

检查点是Flink为流计算过程提供的容错和故障恢复机制。当程序出错时，Flink会重启受到影响的那部分算子及计算逻辑，并将它们重置到最后一次成功checkpoint时的状态。每次成功的checkpoint产生的“状态数据”其实就是这个流式计算任务在那一时刻

xorxos 2020-06-07

Flink 流式聚合性能调优指南

SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外，Flink Table API 和 SQL 是高效优化过的，它集成了许多查询优化和算子优化。但并不是所有的优化都是

xiaoyutongxue 2020-05-27

k8s 部署Flink

此步骤部署才需要配置文件。先把Flink的所有配置文件拷贝到本地, 再把本地的配置文件挂在到POD里面。vim zoo.cfg //可高用的配置。# The number of milliseconds of each tick. # The numbe

yuchuanchen 2020-05-27

Flink kuduSink开发

拿到表名后就能使用KuduClient对象对其操作了

xorxos 2020-05-26

理解Flink State

在Flink的官网写着：Stateful Computations over Data Streams。基于状态计算的数据流。在流式计算中，希望做一些聚合分析等。那么就需要保存当前日志的状态，以备与后来的日志做比较。在Flink中每个操作都会有状态的保存无

阿尼古 2020-05-26

flink系列-11、PyFlink 核心功能介绍（整理自 Flink 中文社区）

2015年加入阿里巴巴搜索事业部，从事主搜离线相关开发。2017年开始参与 Flink SQL 相关的开发，2019年开始深入参与 PyFlink 相关的开发。PyFlink 社区扶持计划。提供了 Python、UDF 的支持。提供用户自定义的一些UDF

千慧 2020-05-18

Flink 入门

Apache Flink是一个框架和分布式处理引擎，用于在无界和有界数据流上进行有状态的计算。Flink被设计为在所有常见的集群环境中运行，以内存中的速度和任何规模执行计算。Apache Flink is a framework and distribut

yuchuanchen 2020-05-17

Flink : Standalone Cluster

Standalone Cluster 就是独立的 Flink 集群，相对应的有基于 YARN 的 Flink 集群。可以看到有 3 个 Task Manager，由于每个 Task Manager 只配了一个 slot，总共是 3 个 Task Slot.

yuchuanchen 2020-05-16

Flink学习（三）批流版本的wordcount JAVA版本

Flink 开发环境通常来讲，任何一门大数据框架在实际生产环境中都是以集群的形式运行，而我们调试代码大多数会在本地搭建一个模板工程，Flink 也不例外。Flink 一个以 Java 及 Scala 作为开发语言的开源大数据项目，通常我们推荐使用 Java

Spark高级玩法 2020-05-11

Flink学习（三）批流版本的wordcount Scala版本

//创建一个批处理的一个环境。//为了host和port不写死，flink提供了一个方法。//每一个算子也会有个方法 .disableChaining() 将这个算子单独拿出来。//还有个方法.startNewChain() 将当前算子之前面和后面分开

yuchuanchen 2020-05-11

Flink学习（四） Flink Table & SQL 实现wordcount Java版本

Flink Table & SQL WordCountFlink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。一个完整的 Flink SQL 编写的程序包括如下三部分。Sou

itmale 2020-05-11

paypalmts

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号