Question

У меня большой набор данных, который содержит около 9 000 000 записей.Моя целевая переменная содержит логическое значение в виде 0 и 1.

1 = Affected record
0 = Normal records

Проблема заключается в том, что мой полный набор данных содержит только 1904 записи в качестве затронутых учетных записей.

Каков наилучший способ случайной выборки (Взять хотя бы 100000 записей для обучения модели), чтобы избежать предвзятости и переориентации моей модели на класс большинства.

Будет ли SMOTE хорошим вариантом?

Abhishek · Answer 1 · 25 февраля 2019

Вы можете использовать модель обнаружения аномалий.Сначала обучите количество данных, которое вы хотите (скажем, 0,1 Mn), и рассчитайте среднее значение и дисперсию данных.Затем вы можете использовать набор проверки (помеченные данные), чтобы найти какое-то пороговое значение.Затем вы можете решить, является ли образец аномалией или нет, увидев вероятность этого значения.

p (x) аномалия p (x)> epsilon (порог) --> не аномалия

случайная выборка класса дисбаланса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

случайная выборка класса дисбаланса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов