Question

Я пытаюсь использовать pySpark AWS Glue для обработки данных / очистки данных. Данные в формате CSV и сохранены в S3. Данные имеют около 7 тыс. Столбцов и 7 тыс. Строк. Очистка - это набор правил в другом CSV, необходимо циклически проходить через каждое правило и запрашивать фрейм данных в зависимости от условия, обновлять данные в зависимости от действия.

Я загрузил данные во фрейм данных и на их очистку уходит более 3 часов.

Как я могу улучшить производительность? как я могу распараллелить очистку? В обычном питоне я могу разделить данные на порции и применять правила очистки параллельно для порции.

Пожалуйста, укажите, подходит ли AWS Glue для этого.

С уважением MaX

Обработка данных с использованием AWS Glue

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Обработка данных с использованием AWS Glue

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы