且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

【巡检问题分析与***实践】RDS MySQL 活跃线程数高问题

更新时间:2022-05-25 03:01:07

活跃线程数或活跃连接数是衡量MySQL负载状态的关键指标,通常来说一个比较健康的实例活跃连接数应该低于10,对于一个高规格和高QPS的实例,一般活跃连接数可能也就20、30,如果出现几百、上千的活跃连接数,那说明肯定有SQL堆积和MySQL 响应变慢,严重时会引起实例雪崩,实例hang死,无法继续处理SQL请求。

查看活跃线程数

RDS控制台

RDS MySQL的控制台提供了多种查看活跃线程数的方法:

监控与报警

       在RDS控制台的“监控与报警”页中的“标准监控”->“引擎监控”下,可以查看实例的活跃线程数的监控:

【巡检问题分析与***实践】RDS MySQL 活跃线程数高问题

数据库自治服务

在RDS控制台的“自治服务”->“性能趋势”->“会话管理”页中可以查看实例活跃会话数,如果这值特别高,说明实例会话有拥堵:

【巡检问题分析与***实践】RDS MySQL 活跃线程数高问题

活跃线程数高问题分析

慢SQL堆积

如果监控发现活跃线程数容易升高,首先就是show processlist查看是否有慢SQL。如果扫描行数太多的慢SQL太多,容易导致活跃连接数升高。

可以通过自治服务”->“一键诊断”->“会话管理”查看当前真正执行的SQL,如果是慢SQL,可以选中会话,然后结束会话或通过SQL限流,降低慢SQL的影响。

【巡检问题分析与***实践】RDS MySQL 活跃线程数高问题

CPU打满

CPU打满以后正常的SQL也会变慢,活跃线程数肯定会有堆积。CPU打满的原因和处理参考CPU高问题的文档。

table cache

table cache不够用的表象是大量的SQL处于Opening table状态,特别是高QPS或表很多的场景容易出现,需要调大table_open_cache(不需要重启)和table_open_cache_instances(需要重启)参数。       

MDL锁

MDL锁导致的活跃线程数高的表象是大量的SQL处于Waiting for table metadata lock 的状态,在DDL prepare和commit阶段,DDL语句需要获取元数据锁,如果有DDL的表上有未提交事务或慢SQL,会阻塞DDL,DDL又会阻塞其他的SQL,最终导致活跃线程数升高。Kill掉未提交事务、慢SQL或当前正在执行的DDL都可以解决。

行锁冲突

行锁冲突导致的活跃线程数的表现是Innodb_row_lock_waits和Innodb_row_lock_time状态指标升高。您可以通过“自治服务”->“性能趋势”->“行锁”查看这两个指标的监控:

【巡检问题分析与***实践】RDS MySQL 活跃线程数高问题

也可以通过执行show engine innodb status查看是否有大量的处于Lock wait状态的session,如果有说明行锁冲突比较严重,业务上需要优化热点更新、减少事务大小、及时提交事务等方法避免行锁冲突。