Может кто-нибудь сказать мне, какой dask.dataframe выигрывает в эффективности памяти, чем панды? - PullRequest
0 голосов
/ 03 мая 2018

С точки зрения эффективности оперативной памяти, кто намного лучше?

Что делать, чтобы уменьшить / сжать большие данные для работы на небольшой оперативной памяти?

1 Ответ

0 голосов
/ 03 мая 2018

При работе на одной машине с наборами данных меньше ОЗУ, pandas / numpy должна помочь вам нормально работать. Dask - это распределенный пакет распространения задач, который в основном означает, что вы можете лениво читать наборы данных на отдельных компьютерах. Например, папка .csvs, которая вместе слишком велика (60 ГБ) для загрузки в память., Может быть загружена с помощью dask, поэтому вы используете данные только тогда, когда вам это нужно , вызывая dask. dataframe.compute ().
По сути, начните с использования панд - если ваш код начинает выдавать MemoryErrors, вы можете вместо этого использовать dask.

Источник: http://dask.pydata.org/en/latest/why.html

...