При работе на одной машине с наборами данных меньше ОЗУ, pandas / numpy должна помочь вам нормально работать. Dask - это распределенный пакет распространения задач, который в основном означает, что вы можете лениво читать наборы данных на отдельных компьютерах. Например, папка .csvs, которая вместе слишком велика (60 ГБ) для загрузки в память., Может быть загружена с помощью dask, поэтому вы используете данные только тогда, когда вам это нужно , вызывая dask. dataframe.compute ().
По сути, начните с использования панд - если ваш код начинает выдавать MemoryErrors, вы можете вместо этого использовать dask.
Источник:
http://dask.pydata.org/en/latest/why.html