Как получить индексы созданных образцов? Imblearn - PullRequest
0 голосов
/ 07 апреля 2020

Я использую различные imblearn методы передискретизации для набора данных, который содержит ~ 55800 выборок. Около 200 - это класс 1, а остальные - класс 0. Я занимаюсь передискретизацией в классе 1 с различными стратегиями передискретизации.

Это не улучшает качество моей модели, и поэтому я не хочу более подробно рассматривать сгенерированные образцы. Но как получить к ним доступ? Есть ли способ получить индексы созданных?

Цикл по списку образцов до и после выборки, отфильтровывание недубликатов, слишком требователен и зависает на моем ноутбуке.

1 Ответ

0 голосов
/ 10 апреля 2020

Насколько я знаю, в imblearn нет встроенной функции для возврата индексов избыточной выборки. Поэтому единственное решение состоит в том, чтобы получить индексы путем сравнения до и после, как вы предложили. Чтобы не заморозить ваш ноутбук, вы можете пренебречь большинством выборок класса большинства, так как они не используются для создания выборок класса меньшинства с избыточной выборкой (по крайней мере, для случайной избыточной выборки или обычного SMOTE).

Допустим, вы удалили все, кроме 500 выборок класса 0, и оставили все 200 выборок класса 1, а затем выполнили сглаживающую передискретизацию и затем сравнили, как вы пробовали ранее. С таким количеством сэмплов он не должен заморозить ваш ноутбук, и вы сможете понять, как выглядят сэмплированные данные.

...