已经正常工作了快半年的系统,最近突然出现任务大量积压的情况,看日志发现原来只需要 0.02 秒的任务,一个个都变成 15 秒 /30 秒 /45 秒才能执行完,实在太诡异了,时间都是 15 的倍数。然而不论是网络请求或是数据库访问都没有异常,任务倒还是执行成功的。
这时候重启队列又能恢复正常耗时,可是过一段时间又开始变慢。
是用 Django 做的一个应用, redis 做 broker ,所有服务都是阿里云的。
完全没有头绪,怎么排查故障?
这时候重启队列又能恢复正常耗时,可是过一段时间又开始变慢。
是用 Django 做的一个应用, redis 做 broker ,所有服务都是阿里云的。
完全没有头绪,怎么排查故障?