Случайные показатели вырубки леса и метрики точности для двоичной классификации в R - PullRequest
0 голосов
/ 26 августа 2018

Я тренирую классификатор случайных лесов в R, используя mlr для бинарной классификации.

Мои занятия хорошо сбалансированы.

      0         1 
0.5162791 0.4837209 

Я настраивал различные модели различными способами, изменяя количество деревьев и mtry.

Но у меняпроблема выбора правильных метрик точности и определения того, какой должна быть отсечка.

В настоящее время у меня есть

tpr.test.mean  fpr.test.mean  fnr.test.mean  fpr.test.mean   acc.test.mean mmce.test.mean 
 0.7908072      0.2872358      0.2091928      0.2872358      0.7531250      0.2468750 

f1.test.mean 
0.7736447 

Как определить, какой должна быть идеальная отсечка для моих занятий?До сих пор я нашел 45/55, чтобы работать лучше, но есть ли лучший способ сделать это?Какие показатели точности обычно лучше всего подходят для двоичных классификаторов?

1 Ответ

0 голосов
/ 26 августа 2018

F1 обычно безопасная ставка. Он не позволяет классификатору «обмануть» меру, имея 100% -ый отзыв или 100% -ную точность; из-за гармонического среднего оба должны увеличиваться бок о бок для хорошего результата.

Конечно, есть исключения, такие как оценка воспоминаний больше, чем точность (например, в диагностике рака).

Таким образом, показатель должен отражать то, что вы в конечном итоге пытаетесь оптимизировать.

...