Question

Я создал кластер Dask на своем ноутбуке и загрузил на него набор данных NetCDF, используя xarray.open_dataset ('some_data.nc', chunks = {'lat': 'auto', 'lon': 'auto ',' время ': - 1})

Я преобразовал это в распределенный массив временных рядов, ts, один на пару (широта, долгота). Для этого массива ts.chunks: ((1555200, 1555200, 1555200, 1555200, 1555200, 1555200), (12,))

Теперь, что я хотел бы сделать, это создать один heapq для каждого чанка с записями, вычисляемыми по одному на строку каждого чанка. Я надеялся, что смогу использовать map_blocks для этого, но я не понимаю, как. Кроме того, я хочу сделать некоторые сокращения на основе этих куч.

Есть ли прямой способ сделать это? Спасибо.

MRocklin · Answer 1 · 20 февраля 2019

Один из простых способов сделать это - переключиться на Dask с задержкой. Смотри https://docs.dask.org/en/latest/delayed-collections.html

Используйте map_blocks для вычисления кучи на основе содержимого каждого блока

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Используйте map_blocks для вычисления кучи на основе содержимого каждого блока

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы