Измените временный путь для индивидуальной работы от спарк-кода - PullRequest
0 голосов
/ 21 марта 2019

У меня есть несколько заданий, которые я хочу выполнять параллельно, добавляя ежедневные данные в один и тот же путь с помощью динамического разделения.

Проблема, с которой я сталкиваюсь, - это временный путь, который создается во время выполнения задания с помощью spark. Несколько заданий в конечном итоге совместно используют одну и ту же временную папку и вызывают конфликт, который может привести к тому, что одно задание удалит временные файлы, а другое задание завершится ошибкой, сообщив, что ожидаемый временный файл не существует.

Можем ли мы изменить временный путь для отдельной работы или есть альтернативный способ избежать проблемы

1 Ответ

0 голосов
/ 26 марта 2019

Чтобы изменить временное местоположение, вы можете сделать это:

/opt/spark/bin/spark-shell --conf "spark.local.dir=/local/spark-temp"

spark.local.dir меняет место, где все временные файлы считываются и записываются, я бы посоветовал строить и открывать позиции этого места черезкомандная строка перед первым сеансом с этим аргументом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...