Многократная обработка с использованием python для запуска сценариев на суперкомпьютере - PullRequest
0 голосов
/ 29 февраля 2020

Я пытаюсь запустить два python сценария, как описано ниже.

Этот код предназначен для загрузки данных с указанного c URL-адреса файла.

years = [ «2013», «2014», «2018», «2019»] для года в годах: код (год)

В этом случае код является функцией загрузки. Я хочу загрузить данные за несколько лет. На обычном компьютере загрузка занимает около 26 часов в год.

Этот код предназначен для обработки данных, загруженных из вышеуказанного кода. Приведенный выше код должен завершиться до того, как этот код будет выполнен.

years = ["2013", "2014", "2018", "2019"] для года в годах: данные (год)

В этом случае данные являются функцией обработки данных. Я хочу загрузить данные за несколько лет. На обычном компьютере загрузка занимает около 24 часов в год.

Таким образом, у меня есть доступ к суперкомпьютеру, который позволяет мне использовать 10 узлов с 36 ядрами в каждом, что в сумме составляет 360 ядер. с возможностью запуска 4 заданий одновременно на срок до 24 часов.

Я намерен запустить два задания в очереди, т.е. сначала загрузить данные, а второе - обработать данные. Я намерен использовать несколько ядер и узлов, чтобы оптимально минимизировать время выполнения для загрузки и обработки КАЖДОГО года данных. Мне сообщили, что использование нескольких ядер и узлов должно быть интегрировано в реальный код.

Буду очень признателен за любые предложения о том, как можно минимизировать время выполнения на основе доступных ресурсов и как именно я могу реализовать это в коде. Я заглянул в многопроцессорную библиотеку, но не смог ее реализовать.

Данные загружаются по ссылке ниже. drive.google.com/open?id=1TdiPuIjj7u-arACMPh5yVeegcJ-y3fLr Данные за каждый год составляют около 6 ГБ, я считаю, что загрузка занимает слишком много времени только потому, что код должен проверить, является ли каждый URL действительным или нет, и это проходит около 100 000 URL в год. Я надеялся, что использование суперкомпьютера позволит мне загружать все годы одновременно через 1 год. скачать код. drive.google.com/open?id=1TdiPuIjj7u-arACMPh5yVeegcJ-y3fLr

код обработки данных только обрабатывает данные, преобразовывая их в файлы csv и позже используя pandas для применения фильтров и пороговых значений. Я надеялся обработать все годы одновременно. Код занимает слишком много времени только потому, что он обрабатывает ALOT-файлы, например, около 100 000 файлов в год. Я надеялся обработать все годы одновременно на суперкомпьютере.

...