У меня большой набор данных, который содержит около 9 000 000 записей.Моя целевая переменная содержит логическое значение в виде 0 и 1.
1 = Affected record
0 = Normal records
Проблема заключается в том, что мой полный набор данных содержит только 1904 записи в качестве затронутых учетных записей.
Каков наилучший способ случайной выборки (Взять хотя бы 100000 записей для обучения модели), чтобы избежать предвзятости и переориентации моей модели на класс большинства.
Будет ли SMOTE хорошим вариантом?