Я пытаюсь понять, является ли Blazing SQL конкурентом или дополнением к dask.
У меня есть данные среднего размера (10-50 ГБ), сохраненные в виде файлов паркета в Azure хранилище больших двоичных объектов .
IIU C Я могу запрашивать, объединять, агрегировать, группировать с помощью Blazing SQL, используя синтаксис SQL, но я также могу читать данные в CuDF, используя dask_cudf
, и выполнять все те же операции, используя синтаксис python / dataframe.
Итак, мне кажется, что они являются прямыми конкурентами?
Правильно ли то, что одно из преимуществ использования dask заключается в том, что он может работать на разделах поэтому он может работать с наборами данных, большими, чем память GPU, тогда как Blazing SQL ограничен тем, что может уместиться на GPU?
Почему лучше использовать Blazing SQL, а не dask?
Редактировать:
Документы говорят о dask_cudf
, но фактическое репо заархивировано, сообщая, что поддержка dask теперь доступна cudf
сам. Было бы хорошо узнать, как использовать dask
для работы с наборами данных больше, чем у gpu-memory, с cudf