запись фрейма данных pyspark в AWS-s3 из экземпляра EC2 с использованием кода pyspark время, затрачиваемое на завершение операции записи, больше обычного времени - PullRequest
0 голосов
/ 22 мая 2019

Когда мы записываем фрейм данных pyspark в s3 из экземпляра EC2 с использованием кода pyspark, время, необходимое для завершения операции записи, больше обычного времени. Раньше для записи 1000 записей требовалось 30 минут, но теперь это занимает больше часа. Также после завершения операции записи переключение контекста на следующие строки кода занимает больше времени (20-30 минут). Мы не уверены, является ли это проблемой AWS-s3 или из-за ленивых вычислений Pyspark. Кто-нибудь может пролить свет на этот вопрос.

Заранее благодарен

1 Ответ

1 голос
/ 24 мая 2019

Кажется, проблема с облачной средой.Мне на ум приходят четыре вещи, которые вы можете проверить:

  1. Версия Spark: для более старой версии spark возникают проблемы с S3.
  2. Размер данных записывается на S3, итакже формат данных при хранении
  3. Проблема памяти / вычислений: возможно, используется память или ЦП до максимальных уровней.
  4. Проблема временного хранения памяти - Spark сохраняет некоторые промежуточные данные во временном хранилище,и это может быть полным.

Итак, с более подробной информацией о решении может стать ясно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...