спарк пишет паркет в HDFS очень медленно на нескольких узлах - PullRequest
0 голосов
/ 05 декабря 2018

я хорошо запускаю отправку spark с --master local[*],

, но когда я запускаю отправку spark на моем многоузловом кластере --master ip of master:port --deploy-mode client: мое приложение работает хорошо до записи в HDFS в паркет, оно не работаетСтоп, никаких сообщений об ошибках, ничего, все еще работает .. Я обнаружил в приложении блокирующую часть, это:

resultDataFrame.write.parquet(path) 

Я пытался с

resultDataFrame.repartition(1).write.parquet(path)

, но все тот же ...

Заранее благодарю за помощь

1 Ответ

0 голосов
/ 05 декабря 2018

Я вижу, что вы пытаетесь использовать master в качестве локального [*], который запустит работу spark в локальном режиме и не сможет использовать ресурсы кластера.

Если вы запускаете искровое задание в кластере, вы можете найти опции отправки спарка, такие как, master как пряжа, а режим развертывания - кластер, здесь указана команда, приведенная ниже.

spark-отправить --class ** - мастер пряжи - кластер режима деплоя ** --conf = ... # другие опции [аргументы приложения]

после запуска задания spark с мастером пряжии разверните режим как кластер, он попытается использовать все ресурсы кластера.

...