Подскажите, пожалуйста, как правильно завершить скрипт pyspark. В настоящее время у меня есть только spark.stop()
, когда мой сценарий заканчивается.
Этого stop()
достаточно, чтобы завершить сеанс, а также освободить память, используемую для всех созданных кадров данных?
У меня есть несколько сценариевкаждый сценарий будет создавать кадры данных из больших таблиц, в которых содержится более 100 миллионов записей.
Я хочу убедиться, что по окончании первого сценария освобождается также используемая память для использования следующим сценарием.
Какие дополнительные вещи я должен сделать, чтобы освободить ресурсы? Должен ли я также очистить кеш или что-то подобное?