Я недавно начал использовать dask и пытался пересчитать месячные данные о погоде в ежедневный формат. Набор данных, который я использую, составляет около 6 ГБ. Когда я отправляю свой сценарий PBS в нашу среду HPC, это занимает гораздо больше времени и продолжает работать. Сценарий PBS приведен ниже:
#PBS -q workq
#PBS -N Parallel_python
###PBS -l select=8:ncpus=1:naccelerators=4:accelerator_model="Tesla_P100-PCIE-12GB"
#PBS -l nodes=2:ppn=36
###PBS -l select=10:ncpus=36:vntype=cray_compute
#PBS -l walltime=100:00:00
##PBS -l place=scatter
#PBS -j oe
#PBS -V
#PBS -o /lus/dal/hpcs_rnd/Python_Data_Analysis/Jatin/Parallel_Function_Testing/PBS/output
cd /lus/dal/hpcs_rnd/Python_Data_Analysis/Jatin/Parallel_Function_Testing
time aprun -n 8 python ./test.py
Код Python приведен ниже:
import xarray as xr
import dask
from dask.distributed import Client
from dask_mpi import initialize
initialize(memory_limit=0.3)
client = Client()
ds = xr.open_dataset(b.e11.B1850C5CN.f09_g16.005.cam.h1.FLNS.05000101-05991231.nc, chunks = ({'lat': 40, 'lon': 40}))
var = ds["FLNS"]
result = var.resample(time = '1M').mean('time').compute()
client.close()
Мой вопрос заключается в том, почему требуется столь много времени для вычисления результата, если серийный кодзаняло около 650 секунд. Еще одна вещь, которую я хочу спросить, это нормально, если я использую mpi и dask-scheduler для запуска моей программы.