Pyspark, как часто мне следует создавать новую сессию Spark? - PullRequest
0 голосов
/ 13 июня 2019

У меня есть конвейер, который выглядит как класс с некоторыми методами. В каждом методе я обрабатываю некоторые данные. Пример:

class Pipeline:

    def load_users(self):
        pass

    def load_sessions(self):
        pass

Должен ли я инициализировать новый сеанс spark в каждом методе с помощью пользовательской конфигурации? Или лучше инициализировать его один раз в __init__ методе?

1 Ответ

0 голосов
/ 13 июня 2019

Вы можете сделать это сразу же, изменив свойства Spark по мере прохождения различных действий / конвейеров, используя spark.conf.set ("prop", "val"). Именно так и поступают большинство, и есть несколько примеров, которые можно найти наоборот.

Если вы хотите лучшего понимания, то от самого мастера: Сколько SparkSessions может иметь одно приложение? . Это добавляет некоторые идеи, которые можно рассмотреть в связи с вашим вопросом. Вопрос в том, нужно ли вам это учитывать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...