Интерпретация результатов XG Boost для несбалансированных наборов данных (точность и AUCRO C) - PullRequest
0 голосов
/ 18 июня 2020

Мой набор данных имеет форму - 5621*8 (двоичная классификация)

  • Метка / цель: Успех (4324, 77%) и Неудачный (1297, 23%)

    (Важный момент: для хорошей работы мне нужны оба класса)

Я разделяю свои данные на 3 (обучение, проверка, проверка)

  • Для обучения и проверки я выполняю 10-кратное CV.

  • Тест - это отдельные данные, которые я оцениваю для каждой складки

Я настраиваю свой scale_pos_weight в диапазоне от 5 to 80 до

  • Наконец, я установил свои значения как 75, так как я получил средний более высокий уровень точности для моего Test set (79 %) для этих 10 складок
  • Но, если я проверю свой average auc_roc metrics it is very poor, т.е. only 50 % for all 10 folds.

Если я не настраивал scale_pos_weight my avg.accuracy drops to 50% & my avg auc_roc increases to 70 %.

Как можно Я интерпретирую из приведенных выше результатов между AUCRO C и точностью в этой ситуации?

В чем может быть проблема в моем случае?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...