Я пытаюсь использовать pySpark AWS Glue для обработки данных / очистки данных. Данные в формате CSV и сохранены в S3. Данные имеют около 7 тыс. Столбцов и 7 тыс. Строк.
Очистка - это набор правил в другом CSV, необходимо циклически проходить через каждое правило и запрашивать фрейм данных в зависимости от условия, обновлять данные в зависимости от действия.
Я загрузил данные во фрейм данных и на их очистку уходит более 3 часов.
Как я могу улучшить производительность? как я могу распараллелить очистку? В обычном питоне я могу разделить данные на порции и применять правила очистки параллельно для порции.
Пожалуйста, укажите, подходит ли AWS Glue для этого.
С уважением
MaX