Используйте map_blocks для вычисления кучи на основе содержимого каждого блока - PullRequest
0 голосов
/ 11 января 2019

Я создал кластер Dask на своем ноутбуке и загрузил на него набор данных NetCDF, используя xarray.open_dataset ('some_data.nc', chunks = {'lat': 'auto', 'lon': 'auto ',' время ': - 1})

Я преобразовал это в распределенный массив временных рядов, ts, один на пару (широта, долгота). Для этого массива ts.chunks: ((1555200, 1555200, 1555200, 1555200, 1555200, 1555200), (12,))

Теперь, что я хотел бы сделать, это создать один heapq для каждого чанка с записями, вычисляемыми по одному на строку каждого чанка. Я надеялся, что смогу использовать map_blocks для этого, но я не понимаю, как. Кроме того, я хочу сделать некоторые сокращения на основе этих куч.

Есть ли прямой способ сделать это? Спасибо.

1 Ответ

0 голосов
/ 20 февраля 2019

Один из простых способов сделать это - переключиться на Dask с задержкой. Смотри https://docs.dask.org/en/latest/delayed-collections.html

...