У меня проблема с бинарной классификацией, где у меня около 15 функций.Я выбрал эти функции, используя другую модель.Теперь я хочу выполнить байесовскую логистику на этих функциях.Мои целевые классы имеют высокий дисбаланс (класс меньшинства составляет 0,001%), и у меня около 6 миллионов записей.Я хочу построить модель, которую можно тренировать по ночам или по выходным, используя байесовскую логистику.
В настоящее время я разделил данные на 15 частей, а затем я тренирую свою модель в первой части и проверяю в последней части, затем обновляю свои приоры с использованием Interpolated
метода pymc3
и перезапускаюмодель с использованием 2-го набора данных.Я проверяю точность и другие метрики (ROC, f1-оценка) после каждого запуска.
Проблемы:
- Моя оценка не улучшается.
- Яиспользуя правильный подход?
- Этот процесс занимает слишком много времени.
Если кто-то может направить меня с правильным подходом и фрагментами кода, это будет очень полезно для меня.