Question

Я пытаюсь запустить две или более работы параллельно.Все задания записывают и дополняют данные, используя один и тот же путь вывода, проблема в том, что первое завершившееся задание выполняет очистку и стирает временную папку, в результате чего другие задания выдают исключение.

В hadoop-client 3 есть флаг конфигурации для отключения автоматической очистки этой папки mapreduce.fileoutputcommitter.cleanup.skipped .

Мне удалось исключить зависимости изспарк-ядро и добавление нового hadoop-клиента с помощью maven.Это нормально работает для master = local, но я не уверен, что это правильно.

Мои вопросы

Можно ли использовать другую библиотеку hadoop-client с apache spark (например,hadoop-клиент версии 3 с apache spark 2.3) и каков правильный подход?
Есть ли лучший способ запустить несколько заданий в параллельной записи по одному и тому же пути?

Использование другой версии клиентской библиотеки hadoop с apache spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Использование другой версии клиентской библиотеки hadoop с apache spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов