在 flink on k8s 默认提交作业的命令下，我们会指定作业的 JM/TM 的 CPU 和 Memory，最后作业生成的 pod 它的 CPU/Memory 的 request/limit 都是一样的资源，但是作业真实运行时使用的资源远达不到 limit 的值，这样就会造成机器资源浪费（水位不高，但是机器又不能再申请 pod）。

more >>

2021-11-11

宕机一台机器，结果一百多个 Flink 作业挂了

背景

因宕机了一台物理机器，实时集群不少作业发生 failover，其中大部分作业都能 failover 成功，某个部门的部分作业一直在 failover，始终未成功，到 WebUI 查看作业异常日志如下：

more >>

2021-09-26

实时平台如何管理多个 Flink 版本？—— 为啥会出现多个版本？

为啥会出现多个版本？

more >>

2021-08-21

《Flink 实战与性能优化》—— 基于 Flink 的实时监控告警系统

12.3 基于 Flink 的实时监控告警系统

在如今微服务、云原生等技术盛行的时代，当谈到说要从 0 开始构建一个监控系统，大家无非就首先想到三个词：Metrics、Tracing、Logging。

more >>

2021-08-20

《Flink 实战与性能优化》—— 基于 Flink 的百亿数据去重实践

12.2 基于 Flink 的百亿数据去重实践

在工作中经常会遇到去重的场景，例如基于 APP 的用户行为日志分析系统：用户的行为日志从手机 APP 端上报到 Nginx 服务端，然后通过 Logstash、Flume 或其他工具将日志从 Nginx 写入到 Kafka 中。由于用户手机客户端的网络可能出现不稳定，所以手机 APP 端上传日志的策略是：宁可重复上报，也不能漏报日志，所以导致 Kafka 中可能会出现日志重复的情况，即：同一条日志出现了 2 条或 2 条以上。通常情况下，Flink 任务的数据源都是 Kafka，若 Kafka 中数据出现了重复，在实时 ETL 或者流计算时都需要考虑基于日志主键对日志进行去重，否则会导致流计算结果偏高或结果不准确的问题，例如用户 a 在某个页面只点击了一次，但由于日志重复上报，所以用户 a 在该页面的点击日志在 Kafka 中出现了 2 次，最后统计该页面的点击数时，结果就会偏高。这里只阐述了一种可能造成 Kafka 中数据重复的情况，在生产环境中很多情况都可能造成 Kafka 中数据重复，这里不一一列举，本节主要讲述出现了数据重复后，该如何处理。

more >>

2021-08-19

《Flink 实战与性能优化》—— 基于 Flink 实时处理海量日志

第十二章 —— Flink 案例

本章将介绍 Flink 在多个场景下落地实现的大型案例，第一个是实时处理海量的日志，将从日志的收集、日志的传输、日志的实时清洗和异常检测、日志存储、日志展示等方面去介绍 Flink 在其中起的作用，希望整个日志处理的架构大家可以灵活的运用在自己的公司；第二个是百亿数据量的情况下如何使用 Flink 实时去重，在这个案例中将对比介绍其他几种常见的去重实现方案；第三个是 Flink 在监控告警系统中的落地实现，在这个案例中同样很详细的介绍了一个监控告警系统的全链路，每一个关节都不可或缺，并且还介绍了 Flink 在未来结合机器学习算法做一些 AIOps 的事情。三个案例都比较典型，如果你也在做类似的项目，希望对你们的技术选型有一定的帮助。

12.1 基于 Flink 实时处理海量日志

在 11.5 节中讲解了 Flink 如何实时处理异常的日志，并且对比分析了几种常用的日志采集工具。我们也知道通常在排查线上异常故障的时候，日志是必不可缺的一部分，通过异常日志我们可以快速的定位到问题的根因。那么通常在公司对于日志处理有哪些需求呢？

more >>

2021-08-18

《Flink 实战与性能优化》—— 如何实时将应用 Error 日志告警？

11.5 如何实时将应用 Error 日志告警？

大数据时代，随着公司业务不断的增长，数据量自然也会跟着不断的增长，那么业务应用和集群服务器的的规模也会逐渐扩大，几百台服务器在一般的公司已经是很常见的了。那么将应用服务部署在如此多的服务器上，对开发和运维人员来说都是一个挑战。一个优秀的系统运维平台是需要将部署在这么多服务器上的应用监控信息汇总成一个统一的数据展示平台，方便运维人员做日常的监测、提升运维效率，还可以及时反馈应用的运行状态给应用开发人员。举个例子，应用的运行日志需要按照时间排序做一个展示，并且提供日志下载和日志搜索等服务，这样如果应用出现问题开发人员首先可以根据应用日志的错误信息进行问题的排查。那么该如何实时的将应用的 Error 日志推送给应用开发人员呢，接下来我们将讲解日志的处理方案。

more >>

zhisheng

Flink 视频、博客、PPT、入门、原理、实战、性能调优、源码解析、问答等持续更新

Flink 精进学习知识星球内容整理

Apache Paimon Primary Key 表

Apache Paimon 文件管理

管理小文件

Apache Paimon 文件操作

Apache Paimon 文件布局设计

Apache Paimon 基础概念

Snapshot

Apache Paimon 介绍

如何收集 Yarn/K8s 集群中的 Flink 任务日志？

关闭 Flink Checkpoint，引发 P3 故障

Flink Table Store ——从计算到存储提升流批统一端到端用户体验

Flink Iceberg Source 并行度推断源码解析

批读 Iceberg

Flink Hive Source 并行度推断源码解析

批读 Hive

如何提高 Flink K8s 集群资源使用率？

问题

宕机一台机器，结果一百多个 Flink 作业挂了

背景

实时平台如何管理多个 Flink 版本？—— 为啥会出现多个版本？

为啥会出现多个版本？

《Flink 实战与性能优化》—— 基于 Flink 的实时监控告警系统

12.3 基于 Flink 的实时监控告警系统

《Flink 实战与性能优化》—— 基于 Flink 的百亿数据去重实践

12.2 基于 Flink 的百亿数据去重实践

《Flink 实战与性能优化》—— 基于 Flink 实时处理海量日志

第十二章 —— Flink 案例

12.1 基于 Flink 实时处理海量日志

《Flink 实战与性能优化》—— 如何实时将应用 Error 日志告警？

11.5 如何实时将应用 Error 日志告警？