Как выбрать метрики для оценки результатов классификации? - PullRequest
0 голосов
/ 09 марта 2019

Недавно мы разработали библиотеку python с именем PyCM , специализирующуюся на анализе многоклассовых матриц путаницы.Система рекомендации параметров была добавлена ​​в версии 1.9 этого модуля, чтобы рекомендовать большинство связанных параметров с учетом характеристик входного набора данных и его проблемы классификации.Этот новый вариант очень сложен и вызывает много вопросов.Сначала я попытаюсь объяснить предположения и описать, как этот модуль работает в этой части.После этого будут заданы некоторые вопросы для оценки эффективности этой рекомендательной системы.

Рассмотренные характеристики:

Характеристики, в соответствии с которыми предлагаются параметры, следующие:следующим образом:

  1. Тип задачи классификации (двоичный или мультикласс)
  2. Тип набора данных (сбалансированный или несбалансированный)

Следует отметить, что вРассматривается случай, когда проблема представляет собой двоичную или мультиклассовую классификацию для несбалансированного набора данных, для рекомендации параметров, просто будучи несбалансированным.Поэтому проверенные состояния можно разделить на три основные группы:

  1. Сбалансированный набор данных - Бинарная классификация
  2. Сбалансированный набор данных - Мультиклассовая классификация
  3. Несбалансированный набор данных

Определение дисбаланса:

Признать тот факт, что проблема классификации является двоичной или мультиклассовой, очень легко.Но граница между сбалансированностью или несбалансированностью для набора данных не ясна.В модуле PyCM для проверки, является ли входной набор данных сбалансированным или нет, было введено определение.Согласно этому определению, если отношение населения самого густонаселенного класса к населению самого заброшенного класса больше 3, набор данных считается несбалансированным.

Рекомендуемые параметры:

Списки рекомендаций были собраны в соответствии с соответствующим документом каждого параметра и возможностями, которые были заявлены в документе.Для получения дополнительной информации прочитайте документ PyCM или посетите страницу проекта .

  • Двоичные - Сбалансированные рекомендуемые параметры: ACC, TPR, PPV, AUC, AUCI, TNR, F1

  • Мультикласс - Сбалансированные рекомендуемые параметры: ERR, TPR Micro, TPR Macro, PPV Micro, PPV Macro, ACC, Overall ACC, MCC, Overall MCC, BCD, Hamming Loss, Zero-one Loss

  • Несбалансированные рекомендуемые параметры: Kappa, SOA1(Landis & Koch), SOA2(Fleiss), SOA3(Altman), SOA4(Cicchetti), CEN, MCEN, MCC, J, Overall J, Overall MCC, Overall CEN, Overall MCEN, AUC, AUCI, G, DP, DPI, GI

Вопросы: 1. Правильно ли предложенное определение дисбаланса?Есть ли более полное определение для этой характеристики?2. Правильно ли рекомендовать одинаковые параметры для двоичной и мультиклассовой задачи классификации по несбалансированному набору данных?3. Являются ли списки параметров рекомендаций правильными и полными?Есть ли другой параметр для рекомендации?4. Существуют ли какие-либо другие характеристики (например, двоичные / мультиклассовые и сбалансированные / несбалансированные), которые могут повлиять на оценку результата метода классификации?

Веб-сайт : http://www.pycm.ir/

Github : https://github.com/sepandhaghighi/pycm

Бумага : https://www.theoj.org/joss-papers/joss.00729/10.21105.joss.00729.pdf

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...