недостаточная несбалансированность данных и отсутствие повторной выборки - PullRequest
0 голосов
/ 05 сентября 2018

Я новичок в машинном обучении и надеюсь, что кто-нибудь может помочь мне с моим вопросом. Я работаю над проектом о логистической регрессии. Набор данных сильно несбалансирован, где только менее 1% случаев являются положительными, а остальные классифицируются как нормальные. Я пытался сравнить результаты между отсутствием повторной выборки (просто используйте исходные данные) и недостаточной выборкой большинства. Но я сомневаюсь, что использование недостаточной выборки значительно улучшится, и я не совсем уверен, как интерпретировать результаты. Вот как я это сделал:

Нет случая передискретизации: я разбил данные на тренировочный набор и тестовый набор. Затем я использую поиск по сетке cv, чтобы найти лучший классификатор логистической регрессии и оценить модель, используя набор тестов. Точность и отзыв соответственно 0,84 и 0,63.

Случай недостаточной выборки: я разбил данные на тренировочный набор и тестовый набор, а также отобрал большинство в обучающем наборе. Все остальное так же, как и в случае без передискретизации. Точность и отзыв 0.06 и 0.92.

Я ожидал, что значение отзыва будет увеличиваться при использовании недостаточной выборки, но я не знаю, почему точность такая низкая; на самом деле, я также использовал SMOTE для пересчёта меньшинства, а значение точности всё ещё очень и очень низкое. Для меня причина может быть в том, что я оценил свою модель на тестовом наборе, который не пересчитывается, как я делал для своего тренировочного набора. Но я думаю, что все сделал правильно, потому что набор тестов должен представлять, каково настоящее слово, и никаких манипуляций с ним не должно быть. Я прав? Тогда мои вопросы можно обобщить так:

  1. Я не видел особых улучшений при использовании повторной выборки, но я знаю, что для такого рода сильно несбалансированных данных необходимо выполнить какую-то повторную выборку. Итак, как я могу объяснить свои результаты, или, может быть, моя процедура моделирования неверна или отсутствует так ключевые шаги?

  2. Следует ли выполнить повторную выборку до или после разделения данных на тренировочный набор и тестовый набор?

  3. Если все, что я здесь сделал, правильно, то как мне интерпретировать изменения точности и отзыва значений, и что еще я могу сделать, чтобы улучшить их? Что я могу придумать прямо сейчас, так это отрегулировать порог принятия решения или переназначить вес.

С уважением

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...