先说明下,有问题的kafka 是3个partition。
每次隔个三天五天的,lag监控就会报警,每次去看lag的消费情况,基本都是单partition的lag上升,去看业务日志,发现消费改partition的消费者不消费了(日志不继续打了,感觉是僵死了),消费的进程还在(机器资源没有明显上升,cpu、内存、io等都没)。
这时重启一下消费者脚本就可继续消费,lag会慢慢下降,想问下这个是什么问题,困扰很久了,一直报警。辛苦各位大佬帮忙解答下。
业务线用的kafka集群版本是kafka_2.11-0.10.1.0,代码引入的客户端版本是
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka_2.11</artifactId>
<version>0.10.1.0</version>
</dependency>