Ядро ноутбука Jupyter умирает при запуске Dask Compute - PullRequest
0 голосов
/ 22 февраля 2019

У меня большой CSV-файл (~ 25 ГБ) длиной 8529090, и при попытке запустить следующее ядро ​​умирает.Работает на MacBook Pro с 16 ГБ ОЗУ.

import dask.dataframe as dd

ddf = dd.read_csv('data/cleaned_news_data.csv')
ddf = ddf[(ddf.type != 'none')].compute()

Есть идеи, как обойти это?

Спасибо за помощь.

1 Ответ

0 голосов
/ 23 февраля 2019

Как вы прокомментировали выше, вызов compute превращает результат в объект в памяти, поэтому, если ваш результат не помещается в память, вам не повезло.

Обычно люди вычисляют меньшие результаты (например, входные данные для графика) или они записывают очень большие результаты на диск.

...