且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

实时计算 Flink 版总体介绍|学习笔记

更新时间:2022-09-02 15:39:25

开发者学堂课程【《实时数仓入门课程》实时计算 Flink 版总体介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/807/detail/13885


实时计算 Flink 版总体介绍


内容简介:

一、大数据计算正从“规模化”走向“实时化”

二、Apache Flink:从流开启的大数据实时计算引擎

三、实时计算 Flink 产品在阿里巴巴的发展历程

四、实时计算 Flink 版总体产品架构

五、实时计算 Flink 版的优势

六、实时计算 Flink 版-产品解决方案

七、实时计算 Flink 版标杆客户-百家全球知名企业


一、大数据计算正从“规模化”走向“实时化”

例如:淘宝在电商的交易下,实时化得根据用户的行为进行推荐。在前几十秒中浏览的商品,会在后续猜测你的兴趣,为你推荐你感兴趣的商品,等等。

 

二、Apache Flink:从流开启的大数据实时计算引擎

流式场景

事件驱动应用、流批分析、数据管道 &ETL

 

正确性保证

Exactly-once、事件时间处理、延迟事件处理

分层 API

流批一致的 SQL、DataSteam API、ProcessFunction、

(Time&State)

运维增强

灵活部署、高可用、运行快照

大规模计算

水平扩展架构、支持超大状态、增量检查点机制

性能卓越

低延迟、高吞吐、内存计算

 

三、实时计算 Flink 产品在阿里巴巴的发展历程

2016~2017

发源于搜索推荐

·阿里集团最核心业务场景

·双 11 实时推荐提升 GMV

·初露锋芒

2017~2018

开始服务全集团

·阿里集团实时数据业务

·双 11 GWV 大屏秒级更新

·集团内部平台化

2018~2019

公共云上线

·基于 Flink 的实时计算产品

·开始服务标杆客户

·阿里云对外产品化

2019~2020

收购 Flink 创始公司

·收购 Flink 创始公司 Ververica

·成为 Flink 社区最大推动者

·全球最强 Flink 团队会师

2020~2021

业界事实标准

·全球主流IT公司全面采用 Flink

·全球主流云厂商推出 Flink 产品

·Flink 成为实时计算领域事实标准

 

 

四、实时计算 Flink 版总体产品架构

平台

一站式企业级 Flink 开发运维平台

SQL/lava/Python 多语言开发,Job 全生命周期管理,OIDC&RBAC 企业级安全,AutoPilot智能调优,OpenAPI&SDK,Prometheus 全链路监控报警

引擎

企业级高性能 Flink 计算引擎

高性能状态存储引擎,SQL 算子深度优化,大规模调度优化,Checkpoint 无缝对接 OSS,Connector 无缝对接主流数据源,网络传输与流控优化,Apache Flink

底座

Cloud Native

Serverless,全托管,容器化

 

五、实时计算 Flink 版的优势

开发

1.数据连接:

·可与阿里云主流数据产品无缝集成,包括主流数据库,消息队列和日志服务等

·可按需自定义 Connector 对接各种外部存储系统

2. 任务开发:

·多语言支持:一站式开发管理平台,包括

SQL/Java/Scala/Python 语言

·元数据:内置统一元数据管理,并可无缝对接外部元数据系统(MySQL/Hive 等)

·函数库:内置多个领域函数库(比如Analytics Zoo cluster serving),并可按需自定义函数

3. 代码调试:

·测试数据管理:支持线上采样和 Mock 测试数据管理,方便构建测试流程

·快速运行测试:基于 Session 集群实现作业秒级启停,大幅提高作业测试效率

·开发生产隔离:开发测试过程不影响生产作业和数据。

 

运维

1. 监控告警:

·丰富的指标监控和维度聚合,便于作业延迟、数据倾斜、反压等问题排查

·通过钉钉、邮件、短信及时告警,并可对接企业内部统一告警系统(prometheus、graphite 等)

2. 智能诊断调优:

·智能诊断:及时发现作业问题并给出合理的该进建议

·智能调优:无人值守自动流控并调整作业资源分配,顺利度过业务流量洪峰

3. 细粒度资源:

支持算子级别的精细化资源配置(CPU/Mem),大规模作业资源利用率提高100%+

4. 高可用保障:

·原厂运维服务兜底,SLA99.9% 保证

·全链路自动容错能力,系统无单点

 

 

成本

1. 弹性扩缩容:

可根据业务负载智能扩缩容,保障业务时效性同时无资源浪费。

2. 付费类型:

用户可根据自身业务特点,选择包年包月或者按量付费。

3. 核心性能:

Nexmark 流计算标准测试性能是开源 Flink 的 3 倍。

 

安全

1. 空间隔离:

支持租户级和项目级的资源和代码隔离,满足跨团队协作需求。

2. 访问控制:

与阿里云账号体系打通,支持 OIDC 身份认证标准协议、支持基于角色的访问控制(RBAC)。

 

 

六、实时计算 Flink 版-产品解决方案

实时计算 Flink 版总体介绍|学习笔记

实时数仓

·PV/UV 统计

·商品销量统计

·交易数据统计

·..........

实时推荐

·短视频推荐

·资讯推荐

·商品推荐

·.......

实时 ETL

·数据库->数据库

·数据库->数仓

·日志->数仓

·.......

实时监控

·商业反作弊

·异常事件检测

·指标监控

·......

 

七、实时计算 Flink 版标杆客户-百家全球知名企业实时计算 Flink 版总体介绍|学习笔记