Когда мы записываем фрейм данных pyspark в s3 из экземпляра EC2 с использованием кода pyspark, время, необходимое для завершения операции записи, больше обычного времени. Раньше для записи 1000 записей требовалось 30 минут, но теперь это занимает больше часа. Также после завершения операции записи переключение контекста на следующие строки кода занимает больше времени (20-30 минут). Мы не уверены, является ли это проблемой AWS-s3 или из-за ленивых вычислений Pyspark. Кто-нибудь может пролить свет на этот вопрос.
Заранее благодарен