В данных, если целевая функция несбалансированна, скажем, от 2% хороших до 98% плохих, и, скажем, 2% - это 500 записей, что если я использую эти 500 плохих записей плюс только 500 хороших записей из 98% и обучумодель в машинном обучении.
Мой вопрос: будет ли Модель хорошо обобщать с этими 500 + 500 данными, как 50:50 хорошо против плохо?и я делаю выбор из этих хороших 500 записей, основанных на нескольких итерациях, чтобы получить высокую точность как 1000 записей, которые будут работать быстрее в машине, чтобы получить вывод.