Question

Я хотел бы сделать вычисления для получения 5 лучших ключевых слов в каждой стране и внутри метода, чтобы получить 5 лучших ключевых слов. Можно ли как-нибудь распараллелить SparkSessions?

Теперь я делаю

country_mapping_df.rdd.map(lambda country_tuple: get_top_5_keywords(country_tuple))

def get_top_5_keywords(country_tuple):
    result1 = spark.sql("""sample""")
    result.write_to_s3

который не работает! Кто-нибудь знает, как заставить это работать?

PDerp15 · Answer 1 · 04 октября 2019

Spark не поддерживает два контекста / сеанса, запущенных одновременно в одной и той же программе, следовательно, вы не можете распараллелить SparkSessions.

source: https://spark.apache.org/docs/2.4.0/rdd-programming-guide.html#unit-testing

Распараллелить SparkSession в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Распараллелить SparkSession в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов