Я пытаюсь решить, какой инструмент изучать из трех для параллельных вычислений / вычислений вне памяти: dask
, modin
или datatable
(pandas
не является параллельным инструментом и не предназначенпри вычислениях с нехваткой памяти).
В документации datatable
не было найдено никаких инструментов нехватки памяти (обсуждается здесь ), поэтому я сосредоточен только на modin
и dask
.
Короче говоря, modin
пытается стать заменой API pandas
, в то время как dask
лениво оценивается.modin
- это хранилище столбцов, а dask
разделяет фреймы данных по строкам.Механизм распределения, стоящий за dask
, является централизованным, а механизм modin
(называемый ray
) - нет.
dask
был первым, имеет большую экосистему и выглядит действительно хорошо задокументированным, обсужденнымна форумах и демонстрируется на видео.modin
(ray
) имеет несколько вариантов дизайна, которые позволяют ему быть более гибким с точки зрения устойчивости к аппаратным ошибкам и высокопроизводительной сериализации.ray
стремится быть наиболее полезным в исследованиях ИИ, но сам по себе modin
имеет общее применение.ray
также нацелен на приложения реального времени для лучшей поддержки обучения в режиме реального времени.
Подробнее здесь и здесь .