Я использую python с dask для создания модели логистической регрессии, чтобы ускорить процесс обучения.
У меня есть x, который является массивом объектов (массив numpy), и y, который является вектором метки.
edit: числовые массивы: массив чисел с плавающей запятой x_train (размер n * m) и вектор целых чисел y_train (n * 1), которые являются метками для обучения.оба хорошо вписываются в sklearn LogisticRegression.fit и прекрасно работают там.
Я пытался использовать этот код для создания pandas df, затем преобразовать его в dask ddf и тренироваться на нем, как показано здесь
from dask_ml.linear_model import LogisticRegression
from dask import dataframe as dd
df["label"] = y_train
sd = dd.from_pandas(df, npartitions=3)
lr = LogisticRegression(fit_intercept=False)
lr.fit(sd, sd["label"])
Но появляется ошибка
Не удалось найти подпись для add_intercept:
Я обнаружил эту проблему на Gitgub
Объяснение использования этого кода вместо
from dask_ml.linear_model import LogisticRegression
from dask import dataframe as dd
df["label"] = y_train
sd = dd.from_pandas(df, npartitions=3)
lr = LogisticRegression(fit_intercept=False)
lr.fit(sd.values, sd["label"])
Но я получаю эту ошибку
ValueError: Обнаружено несколько постоянных столбцов!
Как я могу использовать dask для обучения логистической регрессии по данным, полученным из массива?
Спасибо.