Имеет ли смысл использовать Snakemake и Dask вместе? - PullRequest
2 голосов
/ 06 мая 2020

У меня есть рабочий процесс Snakemake, который я использовал для обучения моделей DL TensorFlow. На высоком уровне есть несколько заданий longi sh (обучение модели), которые могут выполняться параллельно. Я хотел бы запустить их в облаке, и dask-cloudprovider кажется многообещающим вариантом, поскольку я могу легко использовать GPU на ECS . Однако для этого мне нужно было бы переписать свой рабочий процесс, используя функции Dask (возможно, dask delayed)? Или есть способ заставить Snakemake использовать Dask?

Ответы [ 2 ]

2 голосов
/ 08 мая 2020

Если вы выполните поиск по запросу «dask snakemake», вы найдете проблему Github от 2017 года, которую вы, возможно, захотите прочитать. Конечно, это возможно, но кто-то должен будет написать интеграцию.

Вы также можете попробовать интеграцию Dask с Airflow или, возможно, более современной библиотекой Prefect.

0 голосов
/ 06 мая 2020

Я никогда раньше не слышал о dask, и я не использую облако, так что я могу быть полностью отключен.

Я не понимаю, почему snakemake и dask не должны хорошо взаимодействовать друг с другом. Разве вы не можете:

rule one:
    input: ...
    output: 'out.txt',
    run:
        from dask_cloudprovider import FargateCluster
        # Do stuff

rule two:
    input:
        'out.txt',
    output:
        ...
    run:
        # Do stuff with out.txt
...