Обработка больших сеток с помощью Dask приводит к MemoryError - PullRequest
0 голосов
/ 07 июля 2019

У меня есть три GeoTIFF, каждый размером примерно 500 МБ на AWS 'S3, которые я пытаюсь обработать в кластере EMR с помощью Dask, но я получаю MemoryError после обработки первого tiff.

После прочтения GeoTIFF с использованием xarray.open_rasterio() я конвертирую значения сетки в логическое значение, а затем умножаю массив на значение с плавающей запятой. Этот рабочий процесс успешно выполнен на трех GeoTIFF размером 50 МБ. Кроме того, я пытался использовать chunking при чтении с xarray, но получил те же результаты.

Есть ли ограничение размера Dask или другая возможная проблема, с которой я мог столкнуться?

1 Ответ

0 голосов
/ 19 июля 2019

Есть ли ограничение размера Dask или другая возможная проблема, с которой я мог столкнуться?

Dask сам по себе не накладывает никаких ограничений на размер. Это обычный процесс Python. Я рекомендую подумать о нормальных проблемах Python или аппаратных проблемах. Моим первым предположением будет то, что вы используете очень маленькие виртуальные машины, но это всего лишь предположение. Удачи!

...