AUC для мультиклассовой классификации - PullRequest
0 голосов
/ 26 августа 2018

Давайте предположим, что у нас есть проблема классификации с 3 классами, и у нас есть сильно несбалансированные данные.Скажем, в классе 1 у нас есть 185 точек данных, в классе 2 199 и в классе 3 720.

Для вычисления AUC по проблеме мультикласса существует макро-среднее значение (равный вес классификации каждогометка) и метод микро-усреднения (рассматривая каждый элемент матрицы индикатора метки как двоичное предсказание), как написано в учебнике scikit-learn .

Для такого несбалансированного набора данных следует микро усреднениеили использовать усреднение по макросам AUC?

Я не уверен, потому что, когда у нас есть запутанная матрица, как показано ниже, я получаю микро-усредненный AUC 0,76 и макро-усредненный AUC 0,55.

enter image description here

1 Ответ

0 голосов
/ 26 августа 2018

Поскольку у вас есть класс с большинством точек данных, классифицированных с гораздо более высокой точностью, общая точность, вычисленная с помощью микро-среднего значения, будет выше, чем та же, что и с помощью макро-среднего значения.

Здесь,P1 = 12/185 = 0,06486486, P2 = 11/199 = 0,05527638, P3 = 670/720 = 0,9305556

общая точность с макро-усреднением = (P1 + P2 + P3) / 3 = 0,3502323, что составляетнамного меньше, чем общая точность с микро-средним значением = (12 + 11 + 670) / (185 + 199 + 720) = 0,6277174.

То же самое относится и к AUC.

...