Вероятностная классификация с гауссовским байесовским классификатором против логистической регрессии - PullRequest
0 голосов
/ 16 ноября 2018

У меня проблема с бинарной классификацией, когда у меня есть несколько замечательных функций, способных предсказать почти 100% тестовых данных, потому что проблема относительно проста.

Однако, поскольку природа проблемы требует, я не могу позволить себе ошибиться (скажем), поэтому вместо того, чтобы давать прогноз, в котором я не уверен, я предпочел бы получить результат как вероятность, установить порог и быть в состоянии сказать: «Если я уверен, что я менее чем на 95%, я назову это« НЕ УВЕРЕН »и буду действовать соответственно». Лучше сказать «я не знаю», чем ошибиться.

Пока все хорошо.

Для этой цели я попробовал алгоритмы гауссовского байесовского классификатора (у меня есть продолжение) и логистическую регрессию, которые дают мне вероятность, а также прогноз для классификации.

Подходя к моей проблеме:

  • Показатель успеха GBC составляет около 99%, а показатель логистической регрессии - около 96%. Поэтому я, естественно, предпочел бы использовать GBC. Однако, насколько бы успешным ни был GBC, он также очень уверен в себе. Шансы, которые я получаю, равны 1 или очень близки к 1, например, 0.9999997, что затрудняет ситуацию, потому что на практике GBC не дает мне вероятностей.

  • Логистическая регрессия работает плохо, но, по крайней мере, дает лучшие и более «разумные» шансы.

Как характер моей проблемы, стоимость неправильной классификации определяется степенью 2, поэтому, если я ошибочно классифицирую 4 продукта, я теряю 2 ^ 4 больше (это меньше единицы, но в любом случае дает идею).

В конце концов; Я хотел бы иметь возможность классифицировать с более высоким успехом, чем логистическая регрессия, но также иметь больше вероятностей, чтобы я мог установить порог и указать те, в которых я не уверен.

Есть предложения?

Заранее спасибо.

1 Ответ

0 голосов
/ 09 августа 2019

Если у вас достаточно данных, вы можете просто перенастроить вероятности.Например, учитывая вывод «прогнозируемой вероятности» вашего гауссовского классификатора, вы можете вернуться назад (на удержанном наборе данных) и при различных значениях прогнозирования оценить вероятность положительного класса.

Кроме того, вы можете просто настроить оптимизацию для своего набора удержания, чтобы определить наилучший порог (без фактической оценки вероятности).Поскольку он одномерный, вам даже не нужно делать что-то необычное для оптимизации - протестируйте около 500 различных порогов и выберите тот, который минимизирует затраты, связанные с неправильной классификацией.

...