Я создаю код pyspark и запускаю его на своей локальной машине с Windows, и все, кажется, работает нормально. При переходе на сервер hadoop команда spark2-submit не может подобрать драйвер для сервера MSSQL. Ниже приведены шаги, необходимые для того, чтобы заставить его работать.
1) Переместил файл jar MSSQL (mssql-jdbc-7.4.1.jre8.jar) в дом спарк под папкой jars.
2) Добавлено -- jar "pathtothejdcjarfile"
с использованием локальной файловой системы file://pathto
файл jar и папка jars на шаге 1.
3) использовал модуль classpath для задания пути к файлу jar, как показано ниже
--conf "spark.driver.extraClassPath=pathtojdbcjarfile" --conf "spark.executor.extraClassPath=pathtoJDCjarfile"
4) Последняя команда подачи искры.
spark2-submit --jar "pathtoJDBCjarfile" --conf "spark.driver.extraClassPath=pathtojdbcjarfile" --conf "spark.executor.extraClassPath=pathtoJDCjarfile" --master yarn --deploy-mode client --executor-memory 1g /home/aab9010/SOMEECRIPT.py
Все попытки приводят к одной и той же ошибке, либо класс не найден, либо нет подходящего драйвера.
Любая помощь приветствуется.