В месте модификации больше чем Dask массив памяти - PullRequest
0 голосов
/ 09 сентября 2018

У меня есть массив dask, X, то есть ок.3500 на 700000. В каждой строке есть пропущенные значения, которые мне нужно вычислить в соответствии со средним значением этой строки.

В настоящее время этот массив хранится как массив dask, и у меня есть отложенная функция, которая может выполнять вменение.Однако, когда я использую метод вычисления, память заполняется, поскольку кажется, что она пытается оставить меня с пустым массивом.

Есть ли способ, которым я могу применить это вменение к массиву на месте так, чтобы я в итоге получил вмененный массив как массив нехватки памяти?

1 Ответ

0 голосов
/ 18 сентября 2018

Когда вы применяете отложенную функцию к массиву dask, он должен будет преобразовать ваш массив в один массив numpy. Смотри http://dask.pydata.org/en/latest/delayed-best-practices.html#don-t-call-dask-delayed-on-other-dask-collections

Возможно, вы захотите разбить массив на части, чтобы строки были в виде отдельных кусков, а затем использовать map_blocks.

...