imbalanced_learn сортирует ярлыки - PullRequest
0 голосов
/ 06 июня 2018

Я пытаюсь использовать imbalanced_learn RandomUnderSampler, но всякий раз, когда я его выполняю, он сортирует метку, делая данные бесполезными.Y содержит целые числа, 1 или 0. Это код:

X, Y = df.iloc[:, 1:], df.iloc[:, 0]

X_res, Y_res = RandomUnderSampler().fit_sample(X, Y)

print(Y_res)

Печать Y дает мне 0 1 0 0 0 1 1 1 1 0 1 0

-> случайным образом, как и ожидалось.

При печати Y_res дает мне 0 0 0 0 0 0 0 0 0 0 0

В то время как последние 1 1 1 1 1 1 1 ...

Как я могу это исправить?

1 Ответ

0 голосов
/ 06 июня 2018

Он делает именно то, что должен делать.Вернуть подмножество набора данных с равными пропорциями 2 классов.Если ваш начальный набор данных имел перекос, скажем, 90: 10 :: 1: 0, X_res с заниженной выборкой, Y_res являются частью набора данных, где 1: 0 близки к 50:50.Теперь вы можете перетасовать разделенные X_res, Y_res в поезде, проверить, проверить согласно вашему требованию

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...