flink程序（FLINK程序指标参数获取）

by intanet.cn ca 大数据 on 2024-11-24

## Flink程序

简介

Apache Flink是一个开源的分布式流处理和批处理框架，用于构建高吞吐量、低延迟的实时数据应用程序。它提供了一个优雅的编程模型，支持多种数据源和数据处理方式，并具备容错性和可扩展性等特性。本文将详细介绍Flink程序的开发、运行和关键概念。### 一、 Flink程序的基本结构一个典型的Flink程序通常包含以下几个步骤：1.

创建执行环境:

通过 `StreamExecutionEnvironment` (流处理) 或 `BatchExecutionEnvironment` (批处理) 创建执行环境，指定程序运行模式（本地或集群）。2.

数据源:

从各种数据源读取数据，例如Kafka、Socket、文件系统等。 Flink提供丰富的连接器支持多种数据源。3.

数据转换:

使用Flink提供的各种算子（Operators）对数据进行转换，例如 `map`, `filter`, `keyBy`, `window`, `aggregate`, `join` 等。这些算子构成数据处理的逻辑。4.

数据输出:

将处理后的数据写入目标数据存储，例如Kafka、Elasticsearch、文件系统等。5.

执行程序:

触发程序执行，Flink将程序提交到集群执行。### 二、数据流API (DataStream API)Flink的核心是其DataStream API，用于构建流处理应用程序。 DataStream API基于不可变的数据集进行操作，这使得程序更容易理解和维护。#### 2.1 核心算子

`map`:

将每个元素映射到一个新的元素。

`filter`:

根据条件过滤元素。

`flatMap`:

将每个元素映射到零个或多个元素。

`keyBy`:

根据指定的键对数据进行分组。

`window`:

将数据流分成窗口进行处理，例如滚动窗口、滑动窗口、会话窗口等。

`aggregate`:

对窗口中的数据进行聚合操作，例如求和、平均值、最大值等。

`reduce`:

对窗口中的数据进行归约操作。

`join`:

连接两个数据流。#### 2.2 窗口操作 (Windowing)窗口操作是流处理中一个重要的概念，它将连续的数据流划分成有限大小的窗口，以便进行聚合操作。 Flink支持多种窗口类型，例如：

滚动窗口 (Tumbling Window):

固定大小的窗口，例如每5秒一个窗口。

滑动窗口 (Sliding Window):

大小固定，但窗口之间存在重叠，例如每5秒一个窗口，窗口长度为10秒。

会话窗口 (Session Window):

根据元素之间的间隔时间来定义窗口。### 三、批处理API (DataSet API)Flink的DataSet API用于构建批处理应用程序。 DataSet API基于有界数据集进行操作，与DataStream API相比，它更加注重数据的完整性。### 四、 Flink程序的执行模式Flink程序可以在不同的执行模式下运行：

本地模式:

在本地机器上运行程序，用于开发和调试。

集群模式:

在Flink集群上运行程序，用于处理大规模数据。 Flink支持Yarn、Kubernetes、Standalone等集群模式。### 五、容错机制Flink采用轻量级的checkpoint机制来保证程序的容错性。 checkpoint机制定期将程序的状态保存到持久化存储，以便在发生故障时能够从最近的checkpoint恢复。### 六、示例程序 (WordCount)这是一个简单的WordCount程序，展示了Flink DataStream API的基本用法：```java import org.apache.flink.api.java.utils.ParameterTool; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.api.functions.source.SourceFunction; import org.apache.flink.util.Collector;public class WordCount {public static void main(String[] args) throws Exception {// 获取执行环境final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 获取参数final ParameterTool params = ParameterTool.fromArgs(args);// 设置并行度env.setParallelism(params.getInt("parallelism", 1));// 从socket读取数据DataStream text = env.addSource(new SourceFunction() {// ... (SourceFunction implementation) ...});// 分词并计数DataStream> wordCounts = text.flatMap(new Tokenizer()).keyBy(0).sum(1);// 打印结果wordCounts.print();// 执行程序env.execute("WordCount");}// ... (Tokenizer class) ... } ```这个例子展示了如何从socket读取数据，进行分词、分组、计数，最后打印结果。具体的`SourceFunction`和`Tokenizer`实现需要根据实际情况编写。这个文章提供了一个关于Flink程序的概述。更深入的学习需要参考Flink官方文档和相关的教程。

Flink程序**简介**Apache Flink是一个开源的分布式流处理和批处理框架，用于构建高吞吐量、低延迟的实时数据应用程序。它提供了一个优雅的编程模型，支持多种数据源和数据处理方式，并具备容错性和可扩展性等特性。本文将详细介绍Flink程序的开发、运行和关键概念。

一、 Flink程序的基本结构一个典型的Flink程序通常包含以下几个步骤：1. **创建执行环境:** 通过 `StreamExecutionEnvironment` (流处理) 或 `BatchExecutionEnvironment` (批处理) 创建执行环境，指定程序运行模式（本地或集群）。2. **数据源:** 从各种数据源读取数据，例如Kafka、Socket、文件系统等。 Flink提供丰富的连接器支持多种数据源。3. **数据转换:** 使用Flink提供的各种算子（Operators）对数据进行转换，例如 `map`, `filter`, `keyBy`, `window`, `aggregate`, `join` 等。这些算子构成数据处理的逻辑。4. **数据输出:** 将处理后的数据写入目标数据存储，例如Kafka、Elasticsearch、文件系统等。5. **执行程序:** 触发程序执行，Flink将程序提交到集群执行。

二、数据流API (DataStream API)Flink的核心是其DataStream API，用于构建流处理应用程序。 DataStream API基于不可变的数据集进行操作，这使得程序更容易理解和维护。

2.1 核心算子* **`map`:** 将每个元素映射到一个新的元素。 * **`filter`:** 根据条件过滤元素。 * **`flatMap`:** 将每个元素映射到零个或多个元素。 * **`keyBy`:** 根据指定的键对数据进行分组。 * **`window`:** 将数据流分成窗口进行处理，例如滚动窗口、滑动窗口、会话窗口等。 * **`aggregate`:** 对窗口中的数据进行聚合操作，例如求和、平均值、最大值等。 * **`reduce`:** 对窗口中的数据进行归约操作。 * **`join`:** 连接两个数据流。

2.2 窗口操作 (Windowing)窗口操作是流处理中一个重要的概念，它将连续的数据流划分成有限大小的窗口，以便进行聚合操作。 Flink支持多种窗口类型，例如：* **滚动窗口 (Tumbling Window):** 固定大小的窗口，例如每5秒一个窗口。 * **滑动窗口 (Sliding Window):** 大小固定，但窗口之间存在重叠，例如每5秒一个窗口，窗口长度为10秒。 * **会话窗口 (Session Window):** 根据元素之间的间隔时间来定义窗口。

三、批处理API (DataSet API)Flink的DataSet API用于构建批处理应用程序。 DataSet API基于有界数据集进行操作，与DataStream API相比，它更加注重数据的完整性。

四、 Flink程序的执行模式Flink程序可以在不同的执行模式下运行：* **本地模式:** 在本地机器上运行程序，用于开发和调试。 * **集群模式:** 在Flink集群上运行程序，用于处理大规模数据。 Flink支持Yarn、Kubernetes、Standalone等集群模式。

五、容错机制Flink采用轻量级的checkpoint机制来保证程序的容错性。 checkpoint机制定期将程序的状态保存到持久化存储，以便在发生故障时能够从最近的checkpoint恢复。

六、示例程序 (WordCount)这是一个简单的WordCount程序，展示了Flink DataStream API的基本用法：```java import org.apache.flink.api.java.utils.ParameterTool; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.api.functions.source.SourceFunction; import org.apache.flink.util.Collector;public class WordCount {public static void main(String[] args) throws Exception {// 获取执行环境final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 获取参数final ParameterTool params = ParameterTool.fromArgs(args);// 设置并行度env.setParallelism(params.getInt("parallelism", 1));// 从socket读取数据DataStream text = env.addSource(new SourceFunction() {// ... (SourceFunction implementation) ...});// 分词并计数DataStream> wordCounts = text.flatMap(new Tokenizer()).keyBy(0).sum(1);// 打印结果wordCounts.print();// 执行程序env.execute("WordCount");}// ... (Tokenizer class) ... } ```这个例子展示了如何从socket读取数据，进行分词、分组、计数，最后打印结果。具体的`SourceFunction`和`Tokenizer`实现需要根据实际情况编写。这个文章提供了一个关于Flink程序的概述。更深入的学习需要参考Flink官方文档和相关的教程。

svn安装完没有svn.exe（win10安装完svn没有对号图标） flink1.16（flink116 sqlserver）