且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

更新时间:2022-05-14 16:59:02

数字经济迎来了快速的发展,传统的商业数据库已经难以满足和响应快速变化,持续增长的业务诉求。云原生分布式数据库带来了四大特性,很好的解决了企业用户的核心诉求。利用资源池化,弹性扩展,智能运维、离在线一体化等核心的特性,数据库全面地进入云原生+分布式的时代。本次演讲邀请了阿里巴巴集团副总裁李飞飞(飞刀)为大家分享数据库的前瞻趋势,解读云原生如何点亮数据上云之路。

演讲嘉宾简介:李飞飞(飞刀),阿里巴巴集团副总裁,高级研究员,ACM杰出科学家。
领导云原生数据库PolarDB和云原生数据仓库AnalyticDB等多款自研数据库产品。笃信技术与科研创新的力量,爬山、跑步、野外徒步也是他的爱好。繁忙的工作之外,还特别喜欢阅读自然科学、历史、人文地理和时政。坚持做有兴趣,有passion的事情。

以下内容根据演讲视频以及PPT整理而成。点击观看回放
更多课程请进入数据库大讲堂”了解

本次分享主要围绕以下五个方面:
一、背景介绍
二、云原生分布式数据库PolarDB-X
三、云原生数据仓库AnalyticDB
四、云原生数据湖分析Data Lake Analytics
五、产品实践落地

一、背景介绍

如今数字经济迎来了快速的发展,从在线教育到远程办公,直播购物到传统的政企,各个行业都成为了数字经济的新亮点。企业业务全面向数字化、在线化、智能化演进。企业面临呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量,企业又需要降本增效,进行更好的智能化数据决策。传统的商业数据库已经难以满足和响应快速变化,持续增长的业务诉求。数据规模在爆炸式增长,数据在不断地加速上云。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代
云原生分布式数据库带来了四大特性,很好的解决了企业用户的核心诉求。利用资源池化,弹性扩展,智能运维、离在线一体化等核心的特性,数据库全面地进入云原生+分布式的时代。那究竟什么是云原生分布式数据库呢?下面来一探究竟。

二、云原生分布式数据库PolarDB-X

1.发布PolarDB-X两大全球企业级功能

云原生就是用Shared Everything和Shared Storage架构实现资源池化,资源解耦,存储计算分离。分布式则是用Shared Nothing架构实现数据水平分片,水平拓展。如果将两者完美的结合在一起,就带来了云原生分布式数据库,将Shared Nothing、Shared Everything和Shared Storage的特性完美地结合在一起,兼具了弹性、高可用、水平拓展的特性。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代
今天我非常荣幸的在这里正式发布阿里云自研的云原生分布式数据库PolarDB-X。PolarDB-X是阿里云自主研发,采用Shared Nothing+Shared Everything+Shared Storage架构的云原生分布式数据库,解决超高并发吞吐,海量数据存储下的在线事务型数据库的瓶颈问题。为了更高效地支持在线业务高并发交易,以及在线复杂查询的诉求,今天将发布PolarDB-X两大全球企业级功能,混合负载HTAP和全局二级索引透明分布式。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

功能一:混合负载HTAP

在线数据库既要承载高并发海量实时交易,又需要支持在线业务部分复杂查询分析需求。传统的分布式数据库需要通过ETL方式,将数据异步传输至数据分析平台。在线复杂查询的数据一致性和实时性无法得到严格的保证,数据传输链路运维复杂度高,业务使用成本上升。

利用PolarDB-X的HTAP混合负载特性,同时覆盖高并发实时交易和部分在线数据分析处理的场景,实现高并发交易,在线复杂查询加速一体化。利用智能混合负载技术、数据混合强一致技术、资源链路强隔离技术、和在线分析加速技术,使得在线交易和在线复杂查询的性能大大提升,效率提升至5~10倍以上。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

功能二:全局二级索引透明分布式

同时为了更高效地支持在线业务,PolarDB-X发布了全局二级索引功能,可以支持多维段拆分,提供透明分布式拆分能力,满足业务对不同维度查询拆分的诉求。基于分布式事务确保索引数据与主表数据强一致,数据可靠,不丢失。

全局二级索引能够帮助客户做什么呢?下面通过典型的电商买卖家场景来展示全局二级索引的能力。订单表通常由买家的ID进行拆分,当卖家进行订单查询时,数据库则需要扫描全部物理表,导致数据库资源负载飙高,整体吞吐处理能力下降。通过使用PolarDB-X为卖家ID创建全局二级索引,卖家订单查询仅需查询索引表,以及回表两次查询,即可完成整体的SQL操作。数据库整体处理效率可提升数百倍,实现了透明的分布式。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

2.PolarDB-X应用案例

PolarDB-X支撑天猫“双11”活动,完美抵御全球最美,最高的交易洪峰
PolarDB-X连续多年稳定支撑天猫“双11”活动。在2019年的“双11”,阿里巴巴集团电商核心业务全面采用PolarDB-X,支撑了每秒高达8700次的TPS峰值,每秒55万笔的交易订单。在零点有135倍的业务瞬间增长,完美抵御了全球最美,最高的交易洪峰。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

中国邮政-新一代寄递平台

此外,在很多事关国计民生的社会基础服务背后也有PolarDB-X的身影。中国邮政在国家的物流行业中起着中流砥柱的作用,保障其物流平稳生产的核心信息系统。新一代寄递平台就采用了PolarDB-X,以及云原生数据仓库AnalyticDB。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

中国邮政致力打造我国快递行业的国家队,而新一代寄递平台是保障中国邮政物流平稳生产的核心信息系统。在传统商业型数据库无法有效支撑的情况下,新一代寄递平台基于云原生分布式数据库PolarDB-X构建,能够存储PB级业务数据,抵御千万级并发规模。2019年“双11”订单业务峰值高达1亿以上,收寄量业务峰值超过7千万,投递业务峰值达到3千万,有效支撑了“双11”等业务高峰期的生产数据处理。并在今年保证疫情期间防疫物资的运送方面发挥了重要作用。依托阿里云技术构建的在线业务平台服务了5000多万线上用户,支撑此平台的PolarDB-X数据库已累计了上十亿条业务数据。在云原生数据仓库AnalyticDB(ADB)基础上构建的数据分析平台支撑了数十亿寄递数据,以及与客户关系数据的多维分析。未来,中国邮政还将在云计算体系建设方面积极探索,加强于阿里云的技术合作。

三、云原生数据仓库AnalyticDB

1.数据分析用户痛点

PolarDB-X的新增特性很好地解决了分布式云原生条件下在线事务型业务的痛点。在分析领域其实也面临着类似的问题和挑战。传统的自建分析系统不得不面对计算存储扩展、计算成本、计算分析实时化、以及多种架构等一系列的挑战和问题,这些问题也困扰着很多的企业,无法更好的使用数据分析,发挥数据的价值,促进业务发展。基于前面提到的云原生的理念,从弹性、功能、成本、性能等角度解决上述用户的痛点,包括存储计算独立,按需付费,按量使用,ETL在线分析一体化,实时的增删改查,实时计算等。通过云原生、按需付费、离在线一体化、实时性、实时增删改查,OLAP数据库将全面地进入云原生时代,实现会数据库就会大数据。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

2.阿里云数据产品大图

下图为阿里云数据产品大图,核心产品包括云原生数据仓库AnalyticDB,云原生数据湖分析Data Lake Analytics(DLA)等。通过这些产品的组合,可以很好地满足用户对复杂数据分析场景的各类需求。下层有很多多源异构的数据源,比如RDBMS、对象存储OSS、日志服务、大数据生态等, 数据仓库ADB和数据湖DLA都可以提供多源异构的数据接入能力。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

3.AnalyticDB重磅升级发布

为了让分析计算更简单,更好地满足企业面对突发流量需求,很高兴与大家一起见证AnalyticDB的重磅升级发布。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

ADB MySQL版本

ADB MySQL版本高度兼容MySQL,利用云原生的弹性模式能力,让用户在购买基础资源的基础上按时间段或资源需要拓展其计算资源或存储资源能力,满足用户对差异化资源负载或业务峰值的资源需求。这种云原生的特性推出可以大大降低用户的实际使用和购买成本。避免了用户需要预留大量资源满足业务峰值的挑战。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

ADB PG版本

此外,在ADB PG版本上发布了自研的Laser引擎,新增向量计算引擎,列式内存模型,JIT加速,列式存储优化等手段,较原生引擎大幅度提升性能,例如较Greenplum的原生引擎有了一倍以上的性能提升。ADB PG全面兼容Greenplum,同时高度兼容Oracle,RAC,Teradata等传统数仓,功能丰富,成熟度高,具备离在线一体化的能力,非常适合金融,政企,运营商等使用传统Oracle,RAC,Teradata等数仓用户低门槛升级至云原生数仓。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

4. AnalyticDB刷新TPC-H评测性能榜单

多款重磅发布的新功能和特性极大提升了云原生数仓的能力。在2020年上半年参加了国际标准化组织TPC-H评测,ADB刷新了TPC-H 30TB的性能榜单的世界纪录。相比第二名,微软SQL Server 2019 性能提升290%,成为首个登上榜单的国内厂商。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代
针对复杂分析场景的TPC-DS 10TB的权威基准测试,ADB在性能指标上刷新了世界纪录,荣登榜单第一名。在测试过程中,充分利用了云原生的弹性、快速扩容和计算加速的能力,在有限资源下实现了性能、性价比双料第一,领先第二名三倍以上。
云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

四、云原生数据湖分析Data Lake Analytics

1. 云原生Serverless 技术

此次,还有重磅升级的云原生数据湖分析Data Lake Analytics(DLA)。利用云原生Serverless技术,DLA可以提供例如Serverless Spark能力,支持ETL、流、机器学习、用户可编程等一系列丰富的企业级功能。云原生Serverless架构有效地降低了企业数据分析和计算的成本,性能较自建的分析系统,例如Spark提升了300%以上,可实现一分钟弹出300个节点。通过Serverless方式大大降低使用成本,同时辅助UI和诊断工具,提供多种异构数据的访问方式,提供多源异构数据湖的易用性。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

五、产品实践落地

1.ADB及DLA产品落地

云原生数据仓库ADB和数据湖分析DLA已经在国内多个用户落地,覆盖从金融、制造、零售、航空、物流、政务等多个头部企业,包括中国南方航空、中国邮政、海尔、美的、以及大众点评等泛互联网客户。助力特步核心报表从分钟级响应到秒级响应,提速80%。在大众点评的点评微生活场景下,ADB助力报表秒级返回,数据魔方提速40倍,有效地实现了企业降本增效,数据分析离在线一体化的目标。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

2.助力企业上云:万仓计划&升舱计划

为了助力企业上云,设计和推出了两个计划,万仓计划和升舱计划,结合阿里云数据平台和合作伙伴一起助力传统企业实现从传统数仓到云原生数仓的升级。一切业务在线化是数字化创新,数字化转型的本质,数据库又是数字化创新和数字化转型的重要一环。阿里云自研的云原生分布式数据库已经深入各行各业,现在已经在全球领先的运营商(中国移动)核心业务系统中试点,具有里程碑式的标杆意义。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

3.中国移动广东公司试点

中国移动广东公司是目前国内信息通信行业中规模最大的省级公司,为上亿个人客户和上百万企业用户提供服务。传统数据库在存储计算瓶颈、备份效率、资源利用率等方面面临诸多挑战。运营商的业务场景与互联网业务更为复杂,需要数据库系统之间具备更好的兼容能力,以目前广东移动和阿里云试点的广州库业务支撑系统为例,其承载了2000多万的用户规模,单库容量约40T,日访问量几十亿,峰值连接数达到12000个。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代
中国移动广东公司与阿里云技术团队一起进行深入的技术探讨以及上层应用的迭代更新,PolarDB作为云原生数据库采用存储和计算分离的架构,所有计算节点共享一份数据,提供分钟级的配置升降级,秒级的故障恢复,全局数据一致性和高效的数据备份容灾能力,既融和了稳定、可靠、高性能、可扩展的特征,又具有开源云数据库简单、开放、自我迭代的优势,非常符合中国移动广东公司对于数据库的要求。目前,PolarDB数据库已经完成部分试点地市数据迁移和业务上线,后续中国移动广东公司非常有信心与阿里云一起在更多的核心业务场景探索创新,以更好的网络服务更多的客户。

4.进入云原生分布式数据库+云原生分布式数据仓库的时代

通信行业一直是传统商业数据库的优势领域,本次的业务落地和试点,充分体现了阿里云阿里云原生分布式数据库的产品能力,已经得到了传统行业客户,以及泛互联网企业客户的高度认可。我们已经进入了从传统OLTP在线事务库和+OLAP在线分析库全面升级至云原生分布式数据库,云原生分布式数据仓库的时代。

云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代