Question

Когда мы записываем фрейм данных pyspark в s3 из экземпляра EC2 с использованием кода pyspark, время, необходимое для завершения операции записи, больше обычного времени. Раньше для записи 1000 записей требовалось 30 минут, но теперь это занимает больше часа. Также после завершения операции записи переключение контекста на следующие строки кода занимает больше времени (20-30 минут). Мы не уверены, является ли это проблемой AWS-s3 или из-за ленивых вычислений Pyspark. Кто-нибудь может пролить свет на этот вопрос.

Заранее благодарен

Prasanjeet Rout · Answer 1 · 24 мая 2019

Кажется, проблема с облачной средой.Мне на ум приходят четыре вещи, которые вы можете проверить:

Версия Spark: для более старой версии spark возникают проблемы с S3.
Размер данных записывается на S3, итакже формат данных при хранении
Проблема памяти / вычислений: возможно, используется память или ЦП до максимальных уровней.
Проблема временного хранения памяти - Spark сохраняет некоторые промежуточные данные во временном хранилище,и это может быть полным.

Итак, с более подробной информацией о решении может стать ясно.

запись фрейма данных pyspark в AWS-s3 из экземпляра EC2 с использованием кода pyspark время, затрачиваемое на завершение операции записи, больше обычного времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

запись фрейма данных pyspark в AWS-s3 из экземпляра EC2 с использованием кода pyspark время, затрачиваемое на завершение операции записи, больше обычного времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов