У меня проблема с бинарной классификацией, когда у меня есть несколько замечательных функций, способных предсказать почти 100% тестовых данных, потому что проблема относительно проста.
Однако, поскольку природа проблемы требует, я не могу позволить себе ошибиться (скажем), поэтому вместо того, чтобы давать прогноз, в котором я не уверен, я предпочел бы получить результат как вероятность, установить порог и быть в состоянии сказать: «Если я уверен, что я менее чем на 95%, я назову это« НЕ УВЕРЕН »и буду действовать соответственно». Лучше сказать «я не знаю», чем ошибиться.
Пока все хорошо.
Для этой цели я попробовал алгоритмы гауссовского байесовского классификатора (у меня есть продолжение) и логистическую регрессию, которые дают мне вероятность, а также прогноз для классификации.
Подходя к моей проблеме:
Показатель успеха GBC составляет около 99%, а показатель логистической регрессии - около 96%. Поэтому я, естественно, предпочел бы использовать GBC.
Однако, насколько бы успешным ни был GBC, он также очень уверен в себе. Шансы, которые я получаю, равны 1 или очень близки к 1, например, 0.9999997, что затрудняет ситуацию, потому что на практике GBC не дает мне вероятностей.
Логистическая регрессия работает плохо, но, по крайней мере, дает лучшие и более «разумные» шансы.
Как характер моей проблемы, стоимость неправильной классификации определяется степенью 2, поэтому, если я ошибочно классифицирую 4 продукта, я теряю 2 ^ 4 больше (это меньше единицы, но в любом случае дает идею).
В конце концов; Я хотел бы иметь возможность классифицировать с более высоким успехом, чем логистическая регрессия, но также иметь больше вероятностей, чтобы я мог установить порог и указать те, в которых я не уверен.
Есть предложения?
Заранее спасибо.