Python Imblearn - Как отслеживать оригинальные записи данных - PullRequest
0 голосов
/ 04 октября 2018

Мои данные сильно несбалансированы, поэтому я использую Python imbalanced - учитесь здесь, чтобы сделать данные сбалансированными: https://imbalanced -learn.readthedocs.io / en / stable / generate / imblearn.combine.SMOTEENN.html# imblearn.combine.SMOTEENN

После прогнозирования модели мне также нужно знать, сколько исходных меток было предсказано правильно, но теперь у меня возникают трудности с отслеживанием исходных меток после выборки данных.

Потому что:

  1. Мой идентификатор для каждой строки - это категориальные данные.Функции выборки принимают только числовые данные.Если я преобразую его в float, эти идентификаторы также могут быть дублированы, и тогда я не буду знать, какой это оригинальный идентификатор.
  2. Есть точно такие же строки (если мы игнорируем идентификатор строки), поэтому я не могу просто использоватьвсе функции для идентификации строки
  3. Я также проверил, что после выборки данных imblearned добавит выборки между исходными данными.Таким образом, я не могу найти, какая строка является исходной строкой.

Есть ли способ отслеживать исходные данные и метки после методов передискретизации? С Python или R все должно быть в порядке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...