Сбой репликации Kafka на одном узле с NotLeaderForPartitionException - PullRequest
0 голосов
/ 25 мая 2020

Я использую kafka_2.11-0.10.2.1. У меня 5 брокеров. Один из узлов постоянно выдает следующие ошибки:

[2020-05-25 16:45:02,054] ERROR [ReplicaFetcherThread-0-1], Error for partition [atlas10-prod-serverSide-ssch,5] to broker 1:org.apache.kafka.common.errors.UnknownTopicOrPartitionException: This server does not host this topic-partition. (kafka.server.ReplicaFetcherThread)
[2020-05-25 16:45:02,055] ERROR [ReplicaFetcherThread-0-1], Error for partition [atlas10-prod-serverSide-ssch,10] to broker 1:org.apache.kafka.common.errors.NotLeaderForPartitionException: This server is not the leader for that topic-partition. (kafka.server.ReplicaFetcherThread)
[2020-05-25 16:44:14,753] ERROR [ReplicaFetcherThread-0-1], Error for partition [atlas10-prod-serverSide-size-chart,0] to broker 1:org.apache.kafka.common.errors.UnknownTopicOrPartitionException: This server does not host this topic-partition. (kafka.server.ReplicaFetcherThread)
[2020-05-25 16:44:14,754] ERROR [ReplicaFetcherThread-0-1], Error for partition [atlas10-prod-serverSide-size-chart,5] to broker 1:org.apache.kafka.common.errors.NotLeaderForPartitionException: This server is not the leader for that topic-partition. (kafka.server.ReplicaFetcherThread)
[2020-05-25 16:44:14,754] ERROR [ReplicaFetcherThread-0-1], Error for partition [atlas10-prod-serverSide-size-chart,12] to broker 1:org.apache.kafka.common.errors.UnknownTopicOrPartitionException: This server does not host this topic-partition. (kafka.server.ReplicaFetcherThread)

Я заметил, что это происходит с репликами в брокере 3 для разделов, лидером которых является 1. Но я не уверен, почему это происходит. Ниже приводится описание тем:

Topic:atlas10-prod-serverSide-size-chart    PartitionCount:15   ReplicationFactor:3 Configs:
    Topic: atlas10-prod-serverSide-size-chart   Partition: 0    Leader: 1   Replicas: 1,2,3 Isr: 1,2
    Topic: atlas10-prod-serverSide-size-chart   Partition: 1    Leader: 2   Replicas: 2,3,4 Isr: 2,4,3
    Topic: atlas10-prod-serverSide-size-chart   Partition: 2    Leader: 3   Replicas: 3,4,0 Isr: 0,4,3
    Topic: atlas10-prod-serverSide-size-chart   Partition: 3    Leader: 4   Replicas: 4,0,1 Isr: 0,1,4
    Topic: atlas10-prod-serverSide-size-chart   Partition: 4    Leader: 0   Replicas: 0,1,2 Isr: 0,1,2
    Topic: atlas10-prod-serverSide-size-chart   Partition: 5    Leader: 1   Replicas: 1,3,4 Isr: 1,4
    Topic: atlas10-prod-serverSide-size-chart   Partition: 6    Leader: 2   Replicas: 2,4,0 Isr: 0,2,4
    Topic: atlas10-prod-serverSide-size-chart   Partition: 7    Leader: 3   Replicas: 3,0,1 Isr: 0,1,3
    Topic: atlas10-prod-serverSide-size-chart   Partition: 8    Leader: 4   Replicas: 4,1,2 Isr: 1,2,4
    Topic: atlas10-prod-serverSide-size-chart   Partition: 9    Leader: 0   Replicas: 0,2,3 Isr: 0,2,3
    Topic: atlas10-prod-serverSide-size-chart   Partition: 10   Leader: 1   Replicas: 1,4,0 Isr: 0,1,4
    Topic: atlas10-prod-serverSide-size-chart   Partition: 11   Leader: 2   Replicas: 2,0,1 Isr: 0,1,2
    Topic: atlas10-prod-serverSide-size-chart   Partition: 12   Leader: 1   Replicas: 3,1,2 Isr: 1,2
    Topic: atlas10-prod-serverSide-size-chart   Partition: 13   Leader: 4   Replicas: 4,2,3 Isr: 2,4,3
    Topic: atlas10-prod-serverSide-size-chart   Partition: 14   Leader: 0   Replicas: 0,3,4 Isr: 0,4,3

Topic:atlas10-prod-serverSide-ssch  PartitionCount:15   ReplicationFactor:3 Configs:
    Topic: atlas10-prod-serverSide-ssch Partition: 0    Leader: 1   Replicas: 1,0,2 Isr: 0,1,2
    Topic: atlas10-prod-serverSide-ssch Partition: 1    Leader: 2   Replicas: 2,1,3 Isr: 1,2,3
    Topic: atlas10-prod-serverSide-ssch Partition: 2    Leader: 3   Replicas: 3,2,4 Isr: 2,4,3
    Topic: atlas10-prod-serverSide-ssch Partition: 3    Leader: 4   Replicas: 4,3,0 Isr: 0,4,3
    Topic: atlas10-prod-serverSide-ssch Partition: 4    Leader: 0   Replicas: 0,4,1 Isr: 0,1,4
    Topic: atlas10-prod-serverSide-ssch Partition: 5    Leader: 1   Replicas: 1,2,3 Isr: 1,2
    Topic: atlas10-prod-serverSide-ssch Partition: 6    Leader: 2   Replicas: 2,3,4 Isr: 2,4,3
    Topic: atlas10-prod-serverSide-ssch Partition: 7    Leader: 3   Replicas: 3,4,0 Isr: 0,4,3
    Topic: atlas10-prod-serverSide-ssch Partition: 8    Leader: 4   Replicas: 4,0,1 Isr: 0,1,4
    Topic: atlas10-prod-serverSide-ssch Partition: 9    Leader: 0   Replicas: 0,1,2 Isr: 0,1,2
    Topic: atlas10-prod-serverSide-ssch Partition: 10   Leader: 1   Replicas: 1,3,4 Isr: 1,4
    Topic: atlas10-prod-serverSide-ssch Partition: 11   Leader: 2   Replicas: 2,4,0 Isr: 0,2,4
    Topic: atlas10-prod-serverSide-ssch Partition: 12   Leader: 3   Replicas: 3,0,1 Isr: 0,1,3
    Topic: atlas10-prod-serverSide-ssch Partition: 13   Leader: 4   Replicas: 4,1,2 Isr: 1,2,4
    Topic: atlas10-prod-serverSide-ssch Partition: 14   Leader: 0   Replicas: 0,2,3 Isr: 0,2,3

EDIT - Пытался перезапустить брокер несколько раз, но не смог восстановить. Пытался также перезапустить контроллер, но это тоже не помогло.

1 Ответ

1 голос
/ 25 мая 2020

Kafka 0.10.2.1 очень старый и имеет известные проблемы с репликацией. Состояние вашего кластера относительно обычное для этой версии. Обычно его довольно легко восстановить.

В большинстве случаев вы можете просто перезапустить брокер, у которого возникнут проблемы. После перезапуска он должен получить актуальные метаданные от контроллера и снова начать работать. В случае, если это не так, обычно помогает перезапуск контроллера.

Вам действительно стоит рассмотреть возможность обновления до более новой версии. Протокол репликации значительно улучшился и стал более стабильным.

...