Question

Я все еще новичок в Pyspark и пытаюсь найти что-то подобное, но не могу найти ничего, что напрямую отвечает на этот вопрос. Я выполняю некоторую работу по декодированию большого количества URL-адресов, и в настоящее время он многопоточный на одном узле (по умолчанию), просто интересно, возможно ли иметь многопоточность в каждом узле на нескольких из них (искра + многопоточность) для дальнейшего ускорения работа? Могу ли я включить многопоточность как часть функции pyspark udf? Спасибо!

E.ZY. · Answer 1 · 10 января 2020

Как сказал Джоби, не могли бы вы предоставить более конкретный пример / воспроизводимые фрагменты кода, чтобы мы могли вам лучше помочь?

С учетом сказанного, Режим FAIR-планировщика приложения Spark и это видео - хорошее начало для чтения.

Pyspark: многопоточность на нескольких узлах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pyspark: многопоточность на нескольких узлах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов