Кафка Стрим в питон Spark Stream - PullRequest
0 голосов
/ 09 октября 2018

У нас есть поток Кафка, который использует Avro.Мне нужно подключить его к Spark Stream.Я использую приведенный ниже код, как Лев Г . Предлагаю.

kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers}, valueDecoder=MessageSerializer.decode_message) 

У меня появляется ошибка ниже, когда я выполняю его через spark-submit.

2018-10-09 10:49:27 WARN YarnSchedulerBackend $ YarnSchedulerEndpoint: 66 - Запрос драйвера на удаление исполнителя 12 по причине, что контейнер помечен как сбойный: container_1537396420651_0008_01_000013 на хосте: имя_сервера.Состояние выхода: 1. Диагностика: [2018-10-09 10: 49: 25.810] Исключение из запуска контейнера.Идентификатор контейнера: container_1537396420651_0008_01_000013 Код выхода: 1

[2018-10-09 10: 49: 25.810]

[2018-10-09 10: 49: 25.811] Контейнер вышел изнулевой код выхода 1. Файл ошибок: prelaunch.err.Последние 4096 байт prelaunch.err:

Последние 4096 байт stderr:

Предупреждение виртуальной машины Java HotSpot (TM) 64-разрядного сервера: INFO: os :: commit_memory (0x00000000d5580000, 702545920, 0) не удалось;error = 'Не удается выделить память' (errno = 12)

[2018-10-09 10: 49: 25.822]

[2018-10-09 10: 49: 25.822] Контейнер завершенс ненулевым кодом завершения 1. Файл ошибок: prelaunch.err.

Последние 4096 байт prelaunch.err: Последние 4096 байт stderr:

64-разрядный Java HotSpot (TM)Предупреждение виртуальной машины сервера: INFO: ошибка os :: commit_memory (0x00000000d5580000, 702545920, 0);error = 'Не удается выделить память' (errno = 12)

Я использовал приведенную ниже команду.

spark-submit --master yarn --py-files ${BIG_DATA_LIBS}v3io-py.zip --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 --jars ${BIG_DATA_LIBS}v3io-hcfs_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-object-dataframe_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-streaming_2.11.jar ${APP_PATH}/${SCRIPT_PATH}/kafka_to_spark_stream.py

Все переменные экспортируются правильно.Что это за ошибка?

1 Ответ

0 голосов
/ 09 октября 2018

Может быть, вы не выделяете достаточно памяти на драйвере / исполнителе для обработки потока?

...