Распараллелить SparkSession в PySpark - PullRequest
0 голосов
/ 03 октября 2019

Я хотел бы сделать вычисления для получения 5 лучших ключевых слов в каждой стране и внутри метода, чтобы получить 5 лучших ключевых слов. Можно ли как-нибудь распараллелить SparkSessions?

Теперь я делаю

country_mapping_df.rdd.map(lambda country_tuple: get_top_5_keywords(country_tuple))

def get_top_5_keywords(country_tuple):
    result1 = spark.sql("""sample""")
    result.write_to_s3

который не работает! Кто-нибудь знает, как заставить это работать?

1 Ответ

1 голос
/ 04 октября 2019

Spark не поддерживает два контекста / сеанса, запущенных одновременно в одной и той же программе, следовательно, вы не можете распараллелить SparkSessions.

source: https://spark.apache.org/docs/2.4.0/rdd-programming-guide.html#unit-testing

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...