【线上】记一次kafka排查过程

迷南。 2022-09-07 12:23 448阅读 0赞

问题

上线后发现，经常有个页面显示的信息有缺失，研究代码发现只有收不到kafka消息时，才会这样

排查

消费端等待30s，原则上时间上是比较充足的，后面确认kafka的服务器确实没有收到相关消息，这下子直接把问题指向了生产者了

生产者加上回调，发现发送报错了：org.apache.kafka.common.errors.TimeoutException: Failed to update meta after 0ms

分析线上生产者参数如下：

configs.put("max.block.ms", 0);

分析源码：

private Future<RecordMetadata> doSend(ProducerRecord<K, V> record, Callback callback) {
        TopicPartition tp = null;
        try {
            throwIfProducerClosed();
            // first make sure the metadata for the topic is available
            ClusterAndWaitTime clusterAndWaitTime;
            try {
                // 这里会传入这个参数maxBlockTimeMs
                // 实际上this.maxBlockTimeMs = config.getLong(ProducerConfig.MAX_BLOCK_MS_CONFIG);
                clusterAndWaitTime = waitOnMetadata(record.topic(), record.partition(), maxBlockTimeMs);
            } catch (KafkaException e) {
                if (metadata.isClosed())
                    throw new KafkaException("Producer closed while send in progress", e);
                throw e;
            }
          ......
private ClusterAndWaitTime waitOnMetadata(String topic, Integer partition, long maxWaitMs) throws InterruptedException {
    ......
            try {
                metadata.awaitUpdate(version, remainingWaitMs);
            } catch (TimeoutException ex) {
                // Rethrow with original maxWaitMs to prevent logging exception with remainingWaitMs
                // 在这里会发生超时报错
                throw new TimeoutException("Failed to update metadata after " + maxWaitMs + " ms.");
            }
            .....

即更新元数据时超过max.block.ms=0(默认值是60s)的时间了。

max.block.ms: 最长阻塞时间。当producer获取元数据等待时间、或缓存满了允许阻塞的时间，超过时间会抛出异常。

继续分析线上的情况，这个页面是由于运营人员在界面操作时触发kafka的发送和接收、进而界面展示，但这个功能不是经常用，导致超过一段时间后，连接断开了，这时候界面操作时，第一次send会花更多的时间，导致超时。

最终解决：

// 主要是这个参数
configs.put("max.block.ms", "1000");
// 默认是5分钟
configs.put("metadata.max.age.ms", 600_000);

【线上】记一次kafka排查过程

问题

排查

发表评论取消回复

还没有评论，来说两句吧...

相关阅读

相关记一次kafka数据丢失问题的排查

相关记一次线上OOM 问题排查过程！

相关记一次服务内存报警排查过程

相关记一次内存溢出排查过程

相关 golang 记一次data race排查过程

相关记一次阿里云木马排查过程

相关记一次Harbor问题排查过程

相关【线上】记一次kafka排查过程

相关记一次线上故障排查

相关记一次线上内存泄漏问题的排查过程

随便看看

Intel Optane(tm) Memory Pining

jenkins只保留最近的构建文件（自动丢弃构建历史）

IDEA 导入外来jar包并生效（同 Eclipse 中 buid path 效果）

Springboot 静态资源路径配置实例介绍

网络

各个join区别

教程文章

热评文章

1江湖小白之一起学Python （二）爬取数据的保存

2Java Shiro：简化身份验证和授权的安全框架

3Java中try()catch{}的使用方法

4Swagger注解-@ApiModel 和 @ApiModelProperty

5windows下强制杀死tomcat进程

6uni-app 条形码(一维码)/二维码生成实现

标签列表