У меня есть длительная задача структурированного потокового вещания, использующая Кафку в качестве источника и приемника. Пакеты обычно завершаются в течение секунды, но иногда могут длиться более 20 секунд. Я еще не определил точную схему, но я вполне уверен, что это происходит после периодов бездействия, и источником ошибки является производитель. Если задержка превышает настройку по умолчанию request.timeout.ms, я получаю сообщение об ошибке ниже. Кто-нибудь знает, почему происходит задержка и возможные решения?
18/11/07 10:45:54 ОШИБКА Utils: прерывание задачи
org.apache.kafka.common.errors.NetworkException: сервер отключился до получения ответа.
18/11 / 07 10:45:54 ИНФОРМАЦИЯ TaskSetManager: Завершенное задание 14.0 на этапе 209.0 (TID 1783) за 30561 мс на локальном хосте (драйвер исполнителя) (15/16)
18/11 / 07 10:45:54 ОШИБКА DataWritingSparkTask: модуль записи для раздела 10 прерывается.
18/11 / 07 10:45:54 ОШИБКА DataWritingSparkTask: модуль записи для раздела 10 прерван.
18/11/07 10:45:54 ОШИБКА Исполнитель: Исключение в задаче 10.0 на этапе 209.0 (TID 1779)
org.apache.kafka.common.errors.NetworkException: сервер отключился до получения ответа.
18/11 / 07 10:45:54 ПРЕДУПРЕЖДЕНИЕ TaskSetManager: потерянное задание 10.0 на этапе 209.0 (TID 1779, localhost, драйвер исполнителя): org.apache.kafka.common.errors.NetworkException: сервер отключился перед ответом был получен.
18/11/07 10:45:54 ОШИБКА TaskSetManager: Задача 10 на этапе 209.0 не выполнена 1 раз; прерывание работы
18/11/07 10:45:54 INFO TaskSchedulerImpl: удален TaskSet 209.0, задачи которого были выполнены, из пула
18/11 / 07 10:45:54 INFO TaskSchedulerImpl: этап отмены 209
18/11/07 10:45:54 ИНФОРМАЦИЯ DAGScheduler: ResultStage 209 (запуск с KafkaUtils.scala: 33) завершился ошибкой за 30,820 с из-за того, что задание было прервано из-за сбоя этапа: задача 10 на этапе 209.0 не выполнена 1 раз, чаще всего недавний сбой: потерянная задача 10.0 на этапе 209.0 (TID 1779, localhost, драйвер исполнителя): org.apache.kafka.common.errors.NetworkException: сервер отключился до получения ответа.
Трассировка стека драйверов:
18/11 / 07 10:45:54 ИНФОРМАЦИЯ DAGScheduler: Ошибка задания 208: запуск с KafkaUtils.scala: 33, заняло 30,854647 с