Горячий, чтобы избежать Python Dask Логистическая регрессия Обнаружена ошибка нескольких постоянных столбцов - PullRequest
0 голосов
/ 13 июня 2019

Я использую python3 с Dask для подгонки модели логистической регрессии. У меня есть два массива numy x, y И я использую этот код для преобразования их в массивы dask

data = da.from_array(data, chunks=(1000, data.shape[1]))
labels = da.from_array(labels)

, а затем

from dask_ml.linear_model import LogisticRegression
l = LogisticRegression()
l.fit(data, labels)

Чтобы соответствовать логистической регрессии, но продолжайте получать эту ошибку

повышение ValueError ('Обнаружено несколько постоянных столбцов!') ValueError: Обнаружено несколько постоянных столбцов!

Обнаружил здесь , что это связано с dask df, но я тренируюсь на массиве. Идеи?

1 Ответ

0 голосов
/ 13 июня 2019

Возможно, вы можете выполнить некоторую предварительную обработку для вашего data. Поскольку функциональные столбцы с постоянными значениями не слишком помогают в прогнозировании / оценке во многих задачах ML, и в этих местах std == 0, мы можем избавиться от них в начале, выполнив следующие действия:

data = data[:, ~np.all(data==data[0,:], axis=0)]
...