Обработка данных с использованием AWS Glue - PullRequest
0 голосов
/ 25 марта 2019

Я пытаюсь использовать pySpark AWS Glue для обработки данных / очистки данных. Данные в формате CSV и сохранены в S3. Данные имеют около 7 тыс. Столбцов и 7 тыс. Строк. Очистка - это набор правил в другом CSV, необходимо циклически проходить через каждое правило и запрашивать фрейм данных в зависимости от условия, обновлять данные в зависимости от действия.

Я загрузил данные во фрейм данных и на их очистку уходит более 3 часов.

Как я могу улучшить производительность? как я могу распараллелить очистку? В обычном питоне я могу разделить данные на порции и применять правила очистки параллельно для порции.

Пожалуйста, укажите, подходит ли AWS Glue для этого.

С уважением MaX

...