Имея dask.DataFrame
, который занимает около 100 ГБ в памяти ::
ddf = client.persist(ddf)
len(ddf_c.index)
# 246652596 rows
## Running some other code like groupby/aggregate etc
Теперь я хочу отфильтровать данные с помощью оператора .loc
, но после выполнения следующего, Потребление ОЗУ составляет 165 ГБ:
ddf_c = ddf_c.loc[ddf_c.is_in_valid_set_of_combis == True]
ddf_c = client.persist(ddf_c) # Now we have 165GB RAM consumptioon
Как я могу проверить наличие открытых / ожидающих / ожидающих фьючерсов / задач / наборов данных, которые мешают Dask действительно перезаписать ddf_c
dask.DataFrame
?
Вот так выглядит информационная страница:
('loc-series-b0f23c725a607fed56584d9e41e57de8', 77) 227.41 MB
[... around 50 entries ...]