При отправке задания Python в режиме кластера возникает следующая ошибка:
appcache / application_1548793257188_803870 / container_e80_1548793257188_803870_01_000001 / environment / lib / python2.7 / site-packages / confluent_kafka * 100* init .py ", строка 2, из .cimpl import (Consumer, # noqa ImportError: librdkafka.so.1: невозможно открыть общий объектный файл: такого файла или каталога нет
librdkafka и другие зависимости python устанавливаются ТОЛЬКО на пограничный узел.Перед отправкой я создаю виртуальную среду и pip install confluent-kafka следующим образом:
pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org --no-binary :all: confluent-kafka
После этого я создаю environment.tar.gz и передать его в spark-submit с помощью --archives
Я попытался установить свойства искры так:
--conf spark.executorEnv.LD_LIBRARY_PATH=/usr/lib64:environment/lib/python2.7/site-packages/confluent_kafka/.libs"
--conf spark.driver.extraLibraryPath=/usr/lib64:environment/lib/python2.7/site-packages/confluent_kafka/.libs"
--conf spark.yarn.appMasterEnv.LD_LIBRARY_PATH=environment/lib/python2.7/site-packages/confluent_kafka/.libs"
Но, к сожалению, это не сработало!
Кто-тосталкивался с такой же проблемой?