Я новичок в машинном обучении и надеюсь, что кто-нибудь может помочь мне с моим вопросом. Я работаю над проектом о логистической регрессии. Набор данных сильно несбалансирован, где только менее 1% случаев являются положительными, а остальные классифицируются как нормальные. Я пытался сравнить результаты между отсутствием повторной выборки (просто используйте исходные данные) и недостаточной выборкой большинства. Но я сомневаюсь, что использование недостаточной выборки значительно улучшится, и я не совсем уверен, как интерпретировать результаты. Вот как я это сделал:
Нет случая передискретизации: я разбил данные на тренировочный набор и тестовый набор. Затем я использую поиск по сетке cv, чтобы найти лучший классификатор логистической регрессии и оценить модель, используя набор тестов. Точность и отзыв соответственно 0,84 и 0,63.
Случай недостаточной выборки: я разбил данные на тренировочный набор и тестовый набор, а также отобрал большинство в обучающем наборе. Все остальное так же, как и в случае без передискретизации. Точность и отзыв 0.06 и 0.92.
Я ожидал, что значение отзыва будет увеличиваться при использовании недостаточной выборки, но я не знаю, почему точность такая низкая; на самом деле, я также использовал SMOTE для пересчёта меньшинства, а значение точности всё ещё очень и очень низкое. Для меня причина может быть в том, что я оценил свою модель на тестовом наборе, который не пересчитывается, как я делал для своего тренировочного набора. Но я думаю, что все сделал правильно, потому что набор тестов должен представлять, каково настоящее слово, и никаких манипуляций с ним не должно быть. Я прав? Тогда мои вопросы можно обобщить так:
Я не видел особых улучшений при использовании повторной выборки, но я знаю, что для такого рода сильно несбалансированных данных необходимо выполнить какую-то повторную выборку. Итак, как я могу объяснить свои результаты, или, может быть, моя процедура моделирования неверна или отсутствует так ключевые шаги?
Следует ли выполнить повторную выборку до или после разделения данных на тренировочный набор и тестовый набор?
Если все, что я здесь сделал, правильно, то как мне интерпретировать
изменения точности и отзыва значений, и что еще я могу сделать, чтобы улучшить их? Что я могу придумать прямо сейчас, так это отрегулировать порог принятия решения или переназначить вес.
С уважением