случайная выборка класса дисбаланса - PullRequest
0 голосов
/ 25 февраля 2019

У меня большой набор данных, который содержит около 9 000 000 записей.Моя целевая переменная содержит логическое значение в виде 0 и 1.

1 = Affected record
0 = Normal records

Проблема заключается в том, что мой полный набор данных содержит только 1904 записи в качестве затронутых учетных записей.

Каков наилучший способ случайной выборки (Взять хотя бы 100000 записей для обучения модели), чтобы избежать предвзятости и переориентации моей модели на класс большинства.

Будет ли SMOTE хорошим вариантом?

1 Ответ

0 голосов
/ 25 февраля 2019

Вы можете использовать модель обнаружения аномалий.Сначала обучите количество данных, которое вы хотите (скажем, 0,1 Mn), и рассчитайте среднее значение и дисперсию данных.Затем вы можете использовать набор проверки (помеченные данные), чтобы найти какое-то пороговое значение.Затем вы можете решить, является ли образец аномалией или нет, увидев вероятность этого значения.

p (x) аномалия p (x)> epsilon (порог) --> не аномалия

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...