У меня есть 10 больших наборов данных, мой код на python загружает их как pandas dataframe и предварительно обрабатывает для получения окончательного файла csv. У меня есть категория столбца в каждом из данных. Ранее я работал над 1 категорией, и мне удалось запустить весь файл примерно за 10 минут. Но сейчас я работаю над 23 категориями. Когда я пытаюсь запустить свой код сейчас, это занимает огромное количество времени.
У меня кластер EMR с 30 хостами. Я могу разделить свой набор данных на 23 файла для каждого набора данных, например, первый набор данных будет выглядеть так:
first_dataset_category_1, first_dataset_category_2.
Таким образом, я разделю все свои наборы данных на эти категории.
Есть ли способ, я могу запустить каждую свою категорию на хосте независимо и сохранить вывод.
Позже я могу объединить все 23 выхода в 1.
Примечание. Весь мой код написан с использованием Pandas, поэтому я не могу перенести его в spark прямо, я попытался использовать dask, но чтение данных заняло слишком много времени.
Кто-нибудь знает, как я могу решить мою проблему?