У нас есть поток Кафка, который использует Avro.Мне нужно подключить его к Spark Stream.Я использую приведенный ниже код, как Лев Г . Предлагаю.
kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers}, valueDecoder=MessageSerializer.decode_message)
У меня появляется ошибка ниже, когда я выполняю его через spark-submit.
2018-10-09 10:49:27 WARN YarnSchedulerBackend $ YarnSchedulerEndpoint: 66 - Запрос драйвера на удаление исполнителя 12 по причине, что контейнер помечен как сбойный: container_1537396420651_0008_01_000013 на хосте: имя_сервера.Состояние выхода: 1. Диагностика: [2018-10-09 10: 49: 25.810] Исключение из запуска контейнера.Идентификатор контейнера: container_1537396420651_0008_01_000013 Код выхода: 1
[2018-10-09 10: 49: 25.810]
[2018-10-09 10: 49: 25.811] Контейнер вышел изнулевой код выхода 1. Файл ошибок: prelaunch.err.Последние 4096 байт prelaunch.err:
Последние 4096 байт stderr:
Предупреждение виртуальной машины Java HotSpot (TM) 64-разрядного сервера: INFO: os :: commit_memory (0x00000000d5580000, 702545920, 0) не удалось;error = 'Не удается выделить память' (errno = 12)
[2018-10-09 10: 49: 25.822]
[2018-10-09 10: 49: 25.822] Контейнер завершенс ненулевым кодом завершения 1. Файл ошибок: prelaunch.err.
Последние 4096 байт prelaunch.err: Последние 4096 байт stderr:
64-разрядный Java HotSpot (TM)Предупреждение виртуальной машины сервера: INFO: ошибка os :: commit_memory (0x00000000d5580000, 702545920, 0);error = 'Не удается выделить память' (errno = 12)
Я использовал приведенную ниже команду.
spark-submit --master yarn --py-files ${BIG_DATA_LIBS}v3io-py.zip --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 --jars ${BIG_DATA_LIBS}v3io-hcfs_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-object-dataframe_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-streaming_2.11.jar ${APP_PATH}/${SCRIPT_PATH}/kafka_to_spark_stream.py
Все переменные экспортируются правильно.Что это за ошибка?