мой вопрос: любой метод передискретизации (вручную, smote, adasyn) будет использовать доступные данные для создания новых точек данных.
- Проблемы с дисбалансом данных в основном решаются втри шага:
- Превышение выборки для класса меньшинства.
- Сокращение выборки для класса большинства.
- Синтезирование новых классов меньшинства.
SMOTE (Техника избыточной выборки синтетического меньшинства) подпадает под третий шаг.Это процесс создания новых классов меньшинств из наборов данных.
Процесс в SMOTE упоминается ниже:
Итак,это немного умнее , чем просто избыточная выборка.
Если мы используем такие данные для построения классификационной модели, не будет ли она переопределена?
Правильный ответ будет ВЕРОЯТНО .Попробуйте!
Вот почему мы используем наборы тестов и перекрестная проверка , чтобы попытаться понять, будет ли модель работать с невидимыми данными!