Я использую Zeppelin v0.7.3
ноутбук для запуска Pyspark
сценариев. В одном абзаце я запускаю скрипт для записи данных из dataframe
в parquet
файл в папке Blob. Файл разделен по странам. Количество строк информационного кадра составляет 99,452,829
. Когда сценарий достигает 1 hour
, возникает ошибка -
Ошибка с 400 StatusCode: «требование не выполнено: сеанс не
активен.
Мой интерпретатор по умолчанию для ноутбука - jdbc
. Я прочитал о timeoutlifecyclemanager
и добавил в настройках интерпретатора zeppelin.interpreter.lifecyclemanager.timeout.threshold
и установил для него значение 7200000
, но все равно обнаружил ошибку после того, как она достигает 1 часа выполнения при 33% завершении обработки.
Я проверил папку Blob после того, как тайм-аут в 1 час и паркетные файлы были успешно записаны в Blob, которые действительно разбиты по странам.
Сценарий, который я запускаю для записи DF в паркет Blob ниже:
trdpn_cntry_fct_denom_df.write.format("parquet").partitionBy("CNTRY_ID").mode("overwrite").save("wasbs://tradepanelpoc@blobasbackupx2066561.blob.core.windows.net/cbls/hdi/trdpn_cntry_fct_denom_df.parquet")
Это тайм-аут Zeppelin? Как его можно продлить на срок более 1 часа? Спасибо за помощь.