Использование другой версии клиентской библиотеки hadoop с apache spark - PullRequest
0 голосов
/ 14 декабря 2018

Я пытаюсь запустить две или более работы параллельно.Все задания записывают и дополняют данные, используя один и тот же путь вывода, проблема в том, что первое завершившееся задание выполняет очистку и стирает временную папку, в результате чего другие задания выдают исключение.

В hadoop-client 3 есть флаг конфигурации для отключения автоматической очистки этой папки mapreduce.fileoutputcommitter.cleanup.skipped .

Мне удалось исключить зависимости изспарк-ядро и добавление нового hadoop-клиента с помощью maven.Это нормально работает для master = local, но я не уверен, что это правильно.

Мои вопросы

  • Можно ли использовать другую библиотеку hadoop-client с apache spark (например,hadoop-клиент версии 3 с apache spark 2.3) и каков правильный подход?
  • Есть ли лучший способ запустить несколько заданий в параллельной записи по одному и тому же пути?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...