Обработка несбалансированных данных в машинном обучении? - PullRequest
0 голосов
/ 18 марта 2019

В данных, если целевая функция несбалансированна, скажем, от 2% хороших до 98% плохих, и, скажем, 2% - это 500 записей, что если я использую эти 500 плохих записей плюс только 500 хороших записей из 98% и обучумодель в машинном обучении.

Мой вопрос: будет ли Модель хорошо обобщать с этими 500 + 500 данными, как 50:50 хорошо против плохо?и я делаю выбор из этих хороших 500 записей, основанных на нескольких итерациях, чтобы получить высокую точность как 1000 записей, которые будут работать быстрее в машине, чтобы получить вывод.

1 Ответ

1 голос
/ 18 марта 2019

[https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/][1]

Привет,

Надеюсь, ссылка выше, ссылка очистит ваши концепции.

В случае работы с несбалансированными данными, это плохой подход, чтобы проверить только одинВозможно, вам придется попробовать другой метод, такой как сбор большего количества данных, создание данных, изменение измерения точности (кривая Рока или другой тип матрицы) или выборка входных данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...