Я пытаюсь запустить две или более работы параллельно.Все задания записывают и дополняют данные, используя один и тот же путь вывода, проблема в том, что первое завершившееся задание выполняет очистку и стирает временную папку, в результате чего другие задания выдают исключение.
В hadoop-client 3 есть флаг конфигурации для отключения автоматической очистки этой папки mapreduce.fileoutputcommitter.cleanup.skipped .
Мне удалось исключить зависимости изспарк-ядро и добавление нового hadoop-клиента с помощью maven.Это нормально работает для master = local, но я не уверен, что это правильно.
Мои вопросы
- Можно ли использовать другую библиотеку hadoop-client с apache spark (например,hadoop-клиент версии 3 с apache spark 2.3) и каков правильный подход?
- Есть ли лучший способ запустить несколько заданий в параллельной записи по одному и тому же пути?