也谈分库分表在实际应用的实践（下）

更新时间：2022-08-17 13:56:47

3. 分表策略

分表的策略就相对简单了，复杂的是迁移方案，在同一个业务领域，对于数据进行分表，无非就是分表规则，场景等。

3.1. 分表规则

分表规则很简单，我们根据自己的业务场景，按照人的纬度hash取模的方式来进行分表，这里大家经常会遇到的问题是，将来还需要再继续分的时候怎么办，我们的策略是，目前的分表充分考虑未来的容量，尽量不给将来二次分表的机会；即使不得不做，我们可以采用通用的2分法来做，2分法可以保证在采用新的分表策略时，需要迁移的规模是2分之一；除此之外，还有一种方式，就是数据冷热分级，需要分析用户的行为把用户数据分为冷热数据，冷数据归档起来提供单独处理。有同学可能会问，为什么不优先选择冷热，然后再做分表，个人觉得各有千秋，且看本文第四部分讨论。

3.2. 场景

3.2.1. 读写

读写我们封装了统一的中间层来负责分表规则，这里我们并没有去做SQL解析，来统一处理，原因有二：

从中间层不支持复杂的SQL操作，避免因为开发水平参差不齐导致一些耗时操作上线，有人可能会觉得这个是过程管理问题，我还是觉得技术上的保障会更靠谱一些。如果某个场景真的有这个需要，拉出来讨论清楚再说。

能够给开发者在开发时做到一定程度的提醒，这里的数据是分表处理的，需要特别注意。

3.2.2. 表关联

表关联确实是个问题，我们的场景是尽量规避表关联，尽量通过数据冗余，空间换时间来做。如果不得不做，基于场景讨论。

3.2.3. 跨分表查询

这个是杜绝的，针对分表的所有操作，都需要带着分表主键，如果确实有场景需要进行聚合操作，则根据场景进行异步数据合并，然后操作合并后的数据，而非直接操作原始分表数据。

拆分后

也谈分库分表在实际应用的实践（下）

3. 迁移方案

终于到迁移方案了，迁移方案有很多种，有粗暴的，有温柔的，还有无感的（这些词不要想歪了）。

3.1. 停机

这个很简单，高效，停机，旧数据按照分库、分表规则直接导入到新表中就行，迁移过程中的细节就不说了，无非就是数据备份、数据准备、数据操作、数据验证、业务恢复。

优点：简单直接

缺点：需要停机，业务影响大，恢复时间依赖数据迁移进度。

3.2. 无感迁移

无感大家都很喜欢，也是我们喜欢和选择的，为了能够在基础能力扩充和业务无感上寻找一个平衡，我们花了不少代价，总结下来就是双写、并行、验证、回写、追数据、切换，这几个环节并非严格按照次序，需要根据业务场景及对数据的操作来进行细分：

3.2.1. 双写

针对分库的数据，新旧库各写一份，数据操作依然用旧库。对于分表，采用的是业务隔离，按照一定的条件旧写旧，新写新，新的数据回写到旧表，数据读取依然用旧表。

也谈分库分表在实际应用的实践（下）

3.2.2. 并行

并行一段时间，保证有足够的时间片内的数据，这个时间根据不同业务的数据热度以及迁移代价来定，太短稳定性有风险，太长有数据压力。

也谈分库分表在实际应用的实践（下）

3.2.3. 验证

针对并行期间的数据做新旧逻辑验证及数据验证。

3.2.4. 回写

针对分表数据，走消息系统回写到旧表中，保证用户能够及时看到数据。

3.2.5. 追数据

验证并并行一段时间以后，就可以针对旧数据进行迁移了，这个环节由于数据规模比较大，都是在数据库级别的批量操作。

也谈分库分表在实际应用的实践（下）

3.2.6. 切换

分库业务的切换，要注意数据的时效性，切换到新的服务，分散旧库的压力。分表的切换会分的更细一些，按照读、写的纬度来切，优先切写到新表，通过数据回写保证能读到，然后切读到新表，最后再停回写。

也谈分库分表在实际应用的实践（下）

4. 延伸

4.1. 选择问题

4.1.1. 消息与反查

这两个放在一起是不是有些奇怪，笔者是基于保证数据一致性的手段来考虑这件事情。通常来说，反查更多用在同步调用上，而消息是异步场景下来用。两者共同点在于，都需要用幂等机制来保证数据一致性。不同点在于反查时效更高，通常依赖调度，并且系统隔离性较差。消息系统隔离性较好，但是存在消息无序性和较大延迟。

4.1.2. 幂等加异步与分布式事务

这两个放一起也是由于解决数据一致性的问题，两者各有千秋，我们选择了开发复杂一些，但是相对灵活一些的方案，针对大数据量、高并发的场景，分布式事务对于我们来说太重了。如果只是单纯的把数据库进行拆分，分布式事务可能更为适合。

4.1.3. 读写分离与分库分表

读写分离也是分摊系统压力和数据库压力的有效方式，两者不存在谁更好的问题，需要根据面对的业务场景及数据场景，分析数据的读写比作出选择，如果读写比非常高，那么无疑读写分离的效果是非常明显的。

4.1.4. 数据归档与分库分表

数据归档也是一种常用的策略，根据用户行为的分析业务场景和数据，来降低系统压力，选择依据是数据本身的冷热程度，如果数据冷热分布存在比较大的不均衡，那么归档无疑是比较优先的选择。

4.2. 代价问题

4.2.1. 数据时效

并行时间需要根据数据时效要求来做评估，时效要求比较长，那么并行期会比较长，这时建议考虑其它策略。

4.2.2. 流程影响

从直接操作数据库到依赖服务，从同步改为异步，这些对业务流程和数据流程都有非常大的影响，需要评估并做好处理。

4.2.3. 开发复杂度

方案选择直接影响就是开发复杂度，如果要做无感迁移，复杂度要多非常多，怎么平衡和选择才是关键。

4.3. 迁移升级

如果应用和外部系统有交互，那么还需要考虑灰度及兼容，以及推动外部迁移的部分，这些就是后话，不在此文之列。

上一篇 : ：漫谈“架构团队”之组织架构（上）下一篇 : Redis Cluster 宕机引发的事故（上）

也谈分库分表在实际应用的实践（下）

3. 分表策略

3.1. 分表规则

3.2. 场景

3.2.1. 读写

3.2.2. 表关联

3.2.3. 跨分表查询

3. 迁移方案

3.1. 停机

3.2. 无感迁移

3.2.1. 双写

3.2.2. 并行

3.2.3. 验证

3.2.4. 回写

3.2.5. 追数据

3.2.6. 切换

4. 延伸

4.1. 选择问题

4.1.1. 消息与反查

4.1.2. 幂等加异步与分布式事务

4.1.3. 读写分离与分库分表

4.1.4. 数据归档与分库分表

4.2. 代价问题

4.2.1. 数据时效

4.2.2. 流程影响

4.2.3. 开发复杂度

4.3. 迁移升级

相关阅读

推荐文章