Параллельный запуск кода Python через несколько блоков - PullRequest
0 голосов
/ 07 сентября 2018

У меня есть 10 больших наборов данных, мой код на python загружает их как pandas dataframe и предварительно обрабатывает для получения окончательного файла csv. У меня есть категория столбца в каждом из данных. Ранее я работал над 1 категорией, и мне удалось запустить весь файл примерно за 10 минут. Но сейчас я работаю над 23 категориями. Когда я пытаюсь запустить свой код сейчас, это занимает огромное количество времени.

У меня кластер EMR с 30 хостами. Я могу разделить свой набор данных на 23 файла для каждого набора данных, например, первый набор данных будет выглядеть так: first_dataset_category_1, first_dataset_category_2. Таким образом, я разделю все свои наборы данных на эти категории. Есть ли способ, я могу запустить каждую свою категорию на хосте независимо и сохранить вывод. Позже я могу объединить все 23 выхода в 1.

Примечание. Весь мой код написан с использованием Pandas, поэтому я не могу перенести его в spark прямо, я попытался использовать dask, но чтение данных заняло слишком много времени.

Кто-нибудь знает, как я могу решить мою проблему?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...