Мои данные сильно несбалансированы, поэтому я использую Python imbalanced - учитесь здесь, чтобы сделать данные сбалансированными: https://imbalanced -learn.readthedocs.io / en / stable / generate / imblearn.combine.SMOTEENN.html# imblearn.combine.SMOTEENN
После прогнозирования модели мне также нужно знать, сколько исходных меток было предсказано правильно, но теперь у меня возникают трудности с отслеживанием исходных меток после выборки данных.
Потому что:
- Мой идентификатор для каждой строки - это категориальные данные.Функции выборки принимают только числовые данные.Если я преобразую его в float, эти идентификаторы также могут быть дублированы, и тогда я не буду знать, какой это оригинальный идентификатор.
- Есть точно такие же строки (если мы игнорируем идентификатор строки), поэтому я не могу просто использоватьвсе функции для идентификации строки
- Я также проверил, что после выборки данных imblearned добавит выборки между исходными данными.Таким образом, я не могу найти, какая строка является исходной строкой.
Есть ли способ отслеживать исходные данные и метки после методов передискретизации? С Python или R все должно быть в порядке.