Кодирование с OneHotEncoder - PullRequest
0 голосов
/ 27 апреля 2020

Я пытаюсь провести предварительную оценку данных с помощью OneHotEncoder от scikitlearn. Очевидно, я делаю что-то не так. Вот мой пример программы:

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer


cat = ['ok', 'ko', 'maybe', 'maybe']


label_encoder = LabelEncoder()
label_encoder.fit(cat)


cat = label_encoder.transform(cat)

# returns [2 0 1 1], which seams good.
print(cat)

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')

res = ct.fit_transform([cat])

print(res)

Конечный результат: [[1.0 0 1 1]]

Ожидаемый результат: что-то вроде:

[
 [ 1 0 0 ]
 [ 0 0 1 ]
 [ 0 1 0 ]
 [ 0 1 0 ]
]

Может кто-нибудь указать, что я отсутствует?

1 Ответ

2 голосов
/ 27 апреля 2020

Вы можете использовать numpy и MultiLabelBinarizer.

import numpy as np
from sklearn.preprocessing import MultiLabelBinarizer

cat = np.array([['ok', 'ko', 'maybe', 'maybe']])

m = MultiLabelBinarizer()
print(m.fit_transform(cat.T))

Если вы все еще хотите придерживаться своего решения. Вам просто нужно обновить следующее:

# because of it still a row, not a column
# res = ct.fit_transform([cat])  => remove this

# it should works
res = ct.fit_transform(np.array([cat]).T)

Out[2]:
array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 1., 0.]])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...