Question

Я использую Zeppelin v0.7.3 ноутбук для запуска Pyspark сценариев. В одном абзаце я запускаю скрипт для записи данных из dataframe в parquet файл в папке Blob. Файл разделен по странам. Количество строк информационного кадра составляет 99,452,829. Когда сценарий достигает 1 hour, возникает ошибка -

Ошибка с 400 StatusCode: «требование не выполнено: сеанс не активен.

Мой интерпретатор по умолчанию для ноутбука - jdbc. Я прочитал о timeoutlifecyclemanager и добавил в настройках интерпретатора zeppelin.interpreter.lifecyclemanager.timeout.threshold и установил для него значение 7200000, но все равно обнаружил ошибку после того, как она достигает 1 часа выполнения при 33% завершении обработки.

Я проверил папку Blob после того, как тайм-аут в 1 час и паркетные файлы были успешно записаны в Blob, которые действительно разбиты по странам.

Сценарий, который я запускаю для записи DF в паркет Blob ниже:

trdpn_cntry_fct_denom_df.write.format("parquet").partitionBy("CNTRY_ID").mode("overwrite").save("wasbs://tradepanelpoc@blobasbackupx2066561.blob.core.windows.net/cbls/hdi/trdpn_cntry_fct_denom_df.parquet")

Это тайм-аут Zeppelin? Как его можно продлить на срок более 1 часа? Спасибо за помощь.

Max Belousov · Answer 1 · 14 ноября 2018

Менеджер жизненного цикла тайм-аута доступен с версии 0.8.

Кажется, есть проблема с pyspark.Попробуйте это решение Исключение тайм-аута сокета Pyspark после запуска приложения некоторое время

Ошибка тайм-аута: ошибка с 400 StatusCode: «требование не выполнено: сеанс не активен».

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ошибка тайм-аута: ошибка с 400 StatusCode: «требование не выполнено: сеанс не активен».

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы