dask-mpi работает вечно на HPC с использованием сценария задания PBS - PullRequest
0 голосов
/ 06 ноября 2019

Я недавно начал использовать dask и пытался пересчитать месячные данные о погоде в ежедневный формат. Набор данных, который я использую, составляет около 6 ГБ. Когда я отправляю свой сценарий PBS в нашу среду HPC, это занимает гораздо больше времени и продолжает работать. Сценарий PBS приведен ниже:

#PBS -q workq
#PBS -N Parallel_python
###PBS -l select=8:ncpus=1:naccelerators=4:accelerator_model="Tesla_P100-PCIE-12GB"
#PBS -l nodes=2:ppn=36
###PBS -l select=10:ncpus=36:vntype=cray_compute
#PBS -l walltime=100:00:00
##PBS -l place=scatter
#PBS -j oe
#PBS -V
#PBS -o /lus/dal/hpcs_rnd/Python_Data_Analysis/Jatin/Parallel_Function_Testing/PBS/output

cd /lus/dal/hpcs_rnd/Python_Data_Analysis/Jatin/Parallel_Function_Testing

time aprun -n 8  python ./test.py

Код Python приведен ниже:

import xarray as xr
import dask
from dask.distributed import Client
from dask_mpi import initialize

initialize(memory_limit=0.3)
client = Client()

ds = xr.open_dataset(b.e11.B1850C5CN.f09_g16.005.cam.h1.FLNS.05000101-05991231.nc, chunks = ({'lat': 40, 'lon': 40}))
var = ds["FLNS"]

result = var.resample(time = '1M').mean('time').compute()

client.close()

Мой вопрос заключается в том, почему требуется столь много времени для вычисления результата, если серийный кодзаняло около 650 секунд. Еще одна вещь, которую я хочу спросить, это нормально, если я использую mpi и dask-scheduler для запуска моей программы.

...