Как проверить, почему Dask не освобождает память при перезаписи переменной - PullRequest
1 голос
/ 05 августа 2020

Имея dask.DataFrame, который занимает около 100 ГБ в памяти ::

ddf = client.persist(ddf)
len(ddf_c.index)
# 246652596 rows
## Running some other code like groupby/aggregate etc

Теперь я хочу отфильтровать данные с помощью оператора .loc, но после выполнения следующего, Потребление ОЗУ составляет 165 ГБ:

ddf_c = ddf_c.loc[ddf_c.is_in_valid_set_of_combis == True]
ddf_c = client.persist(ddf_c) # Now we have 165GB RAM consumptioon

Как я могу проверить наличие открытых / ожидающих / ожидающих фьючерсов / задач / наборов данных, которые мешают Dask действительно перезаписать ddf_c dask.DataFrame?

Вот так выглядит информационная страница:

('loc-series-b0f23c725a607fed56584d9e41e57de8', 77)     227.41 MB 
[... around 50 entries ...]

1 Ответ

0 голосов
/ 08 августа 2020

Вы можете отслеживать зависимости на "информационных" страницах панели инструментов (щелкните вкладку информации вверху)

В вашей ситуации я, вероятно, не буду настаивать до последнего шага.

...