且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

实时计算Flink——独享模式——Batch功能介绍

更新时间:2022-09-14 18:40:40

什么是Flink Batch功能

实时计算 Flink是阿里巴巴在开源Flink基础上做了大量优化的Flink版本,其中增加了大量的批处理相关功能,使Flink成为统一了批流计算模型的大数据处理引擎。

如何试用Flink Batch功能

与流处理功能相同,Flink Batch功能对SQL有完善的支持,并且做到了批流SQL统一。与流相比,批的SQL暂不支持window相关函数,其他语法都支持。所以SQL文档请参考公共云流计算SQL文档。

如何创建批处理作业

准备工作

  1. 申请独享模式:目前批处理功能仅在独享模式开通,请移步独享模式申请
  2. 创建集群:请按创建集群流程创建集群并创建项目。

创建批处理作业

  1. 进入流计算控制台

  2. 创建batch作业。实时计算Flink——独享模式——Batch功能介绍

  3. 编写作业,示例:读取HDFS数据进行计算,并写回HDFS。

  4. 
    
    1. -- 源表DDL,类型orc,存放路径,用户HDFS hdfs://roothdfs/table/ds=20180816/ 目录
    2. create table hdfs_orc_source(
    3. name varchar,
    4. age BIGINT,
    5. birthday BIGINT
    6. ) with (
    7. type='orc',
    8. path='hdfs://hdfshome/user/hive/warehouse/xxx/table1/dt=20180814',
    9. enumerateNestedFiles='true'
    10. );
    11. -- 结果表ddl
    12. create table test_sink(
    13. name varchar,
    14. age bigint,
    15. birthday bigint
    16. ) with (
    17. type='orc',
    18. filePath='hdfs://hdfshome/orcpath/test'
    19. )
    20. -- DML语句
    21. insert into test_sink
    22. select
    23. name,
    24. age,
    25. birthday
    26. from hdfs_source

    说明:

    1. connector相关配置,请参考阿里云官网Batch(试用)
    2. SQL相关文档,请参考FlinkSQL手册
本文转自实时计算——Batch功能介绍