Сравнение между Модином |Dask |Data.table |Панды для параллельной обработки и из памяти csv файлов - PullRequest
0 голосов
/ 06 июня 2019

В чем принципиальная разница и основные варианты использования Dask | Модин | Data.table

Я проверил документацию каждой библиотеки, кажется, что все они предлагают «похожее» решение для ограничений панд

1 Ответ

0 голосов
/ 13 июня 2019

Я пытаюсь решить, какой инструмент изучать из трех для параллельных вычислений / вычислений вне памяти: dask, modin или datatable (pandas не является параллельным инструментом и не предназначенпри вычислениях с нехваткой памяти).

В документации datatable не было найдено никаких инструментов нехватки памяти (обсуждается здесь ), поэтому я сосредоточен только на modin и dask.

Короче говоря, modin пытается стать заменой API pandas, в то время как dask лениво оценивается.modin - это хранилище столбцов, а dask разделяет фреймы данных по строкам.Механизм распределения, стоящий за dask, является централизованным, а механизм modin (называемый ray) - нет.

dask был первым, имеет большую экосистему и выглядит действительно хорошо задокументированным, обсужденнымна форумах и демонстрируется на видео.modin (ray) имеет несколько вариантов дизайна, которые позволяют ему быть более гибким с точки зрения устойчивости к аппаратным ошибкам и высокопроизводительной сериализации.ray стремится быть наиболее полезным в исследованиях ИИ, но сам по себе modin имеет общее применение.ray также нацелен на приложения реального времени для лучшей поддержки обучения в режиме реального времени.

Подробнее здесь и здесь .

...