Pyspark: многопоточность на нескольких узлах - PullRequest
0 голосов
/ 07 января 2020

Я все еще новичок в Pyspark и пытаюсь найти что-то подобное, но не могу найти ничего, что напрямую отвечает на этот вопрос. Я выполняю некоторую работу по декодированию большого количества URL-адресов, и в настоящее время он многопоточный на одном узле (по умолчанию), просто интересно, возможно ли иметь многопоточность в каждом узле на нескольких из них (искра + многопоточность) для дальнейшего ускорения работа? Могу ли я включить многопоточность как часть функции pyspark udf? Спасибо!

1 Ответ

0 голосов
/ 10 января 2020

Как сказал Джоби, не могли бы вы предоставить более конкретный пример / воспроизводимые фрагменты кода, чтобы мы могли вам лучше помочь?

С учетом сказанного, Режим FAIR-планировщика приложения Spark и это видео - хорошее начало для чтения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...