Сеанс не активен Pyspark в кластере AWS EMR - PullRequest
2 голосов
/ 23 сентября 2019

Я открыл кластер AWS EMR и в ноутбуке pyspark3 jupyter я запустил этот код:

"..
textRdd = sparkDF.select(textColName).rdd.flatMap(lambda x: x)
textRdd.collect().show()
.."

Я получил эту ошибку:

An error was encountered:
Invalid status code '400' from http://..../sessions/4/statements/7 with error payload: {"msg":"requirement failed: Session isn't active."}

Запуск строки:

sparkDF.show()

работает!

Я также создал небольшое подмножество файла, и весь мой код работает нормально.

В чем проблема?

1 Ответ

0 голосов
/ 25 сентября 2019

Вы можете получить некоторые идеи из этого аналогичного потока переполнения стека: Ошибка тайм-аута: ошибка с 400 StatusCode: «требование не выполнено: сеанс не активен».

Возможно, решениеувеличение spark.executor.heartbeatInterval.По умолчанию 10 секунд.

См. Официальная документация EMR о том, как изменить значения по умолчанию для Spark:

Вы можете изменить значения по умолчанию в spark-defaults.conf, используя spark-defaults классификация конфигурации или параметр maximizeResourceAllocation в классификации конфигурации spark.

...