Как интерпретировать weka классификацию? - PullRequest
54 голосов
/ 25 мая 2010

Как мы можем интерпретировать результат классификации в weka, используя наивный байес?

Как рассчитывается среднее значение, стандартное отклонение, сумма веса и точность?

Как рассчитывается статистика Каппа, средняя абсолютная ошибка, среднеквадратичная ошибка и т. Д.?

Какова интерпретация матрицы путаницы?

Ответы [ 4 ]

88 голосов
/ 16 августа 2010

Ниже приведен пример выходных данных для наивного байесовского классификатора с использованием 10-кратной перекрестной проверки. Там много информации, и то, на чем вы должны сосредоточиться, зависит от вашего приложения. Ниже я объясню некоторые результаты, чтобы вы начали.

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances          71               71      %
Incorrectly Classified Instances        29               29      %
Kappa statistic                          0.3108
Mean absolute error                      0.3333
Root mean squared error                  0.4662
Relative absolute error                 69.9453 %
Root relative squared error             95.5466 %
Total Number of Instances              100     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.967     0.692      0.686     0.967     0.803      0.709    0
                 0.308     0.033      0.857     0.308     0.453      0.708    1
Weighted Avg.    0.71      0.435      0.753     0.71      0.666      0.709

=== Confusion Matrix ===

  a  b   <-- classified as
 59  2 |  a = 0
 27 12 |  b = 1

Правильно и неправильно классифицированные экземпляры показывают процент тестовых экземпляров, которые были правильно и неправильно классифицированы. Необработанные числа показаны в путанице, где a и b представляют метки классов. Здесь было 100 экземпляров, так что проценты и необработанные числа складываются, aa + bb = 59 + 12 = 71, ab + ba = 27 + 2 = 29.

Процент правильно классифицированных случаев часто называют точностью или точностью выборки. У него есть некоторые недостатки, такие как оценка производительности (не скорректированная случайностью, не чувствительная к распределению классов), поэтому вы, вероятно, захотите взглянуть на некоторые другие цифры. Область ROC, или область под кривой ROC, является моей предпочтительной мерой.

Каппа - это скорректированная на случайность мера согласия между классификациями и истинными классами. Он рассчитывается путем отвлечения ожидаемого соглашения от наблюдаемого соглашения и деления на максимально возможное соглашение. Значение больше 0 означает, что ваш классификатор работает лучше, чем шанс (так и должно быть!).

Коэффициенты ошибок используются для численного прогнозирования, а не для классификации. В численном прогнозировании прогнозы не просто правильные или неправильные, ошибка имеет величину, и эти показатели отражают это.

Надеюсь, это поможет вам.

28 голосов
/ 04 февраля 2014

Чтобы уточнить ответ michaeltwofish, некоторые примечания по оставшимся значениям:

  • TP Rate : показатель истинных положительных результатов (экземпляры, правильно классифицированные как данный класс)

  • FP Rate : уровень ложных срабатываний (случаи, ошибочно отнесенные к данному классу)

  • Точность : доля экземпляров, которые действительно принадлежат классу, деленная на общее число экземпляров, классифицированных как этот класс

  • Напомним : доля экземпляров, отнесенных к данному классу, деленная на фактическую сумму в этом классе (эквивалентную ставке TP)

  • F-Measure : комбинированная мера для точности и отзыва, рассчитанная как 2 * Precision * Recall / (Precision + Recall)

Что касается измерения площади ROC, я согласен с michaeltwofish, что это одно из самых важных значений, полученных Weka. «Оптимальный» классификатор будет иметь значения области ROC, приближающиеся к 1, при этом 0,5 сопоставимо со «случайным угадыванием» (аналогично статистике Каппа, равной 0).

Следует отметить, что «баланс» набора данных необходимо учитывать при интерпретации результатов. Несбалансированные наборы данных, в которых непропорционально большое количество экземпляров принадлежит определенному классу, могут привести к высокой степени точности, даже если классификатор не обязательно будет особенно хорош.

Дальнейшее чтение:

1 голос
/ 28 января 2018

Что такое наивный байесовский?

Это объяснение может помочь прояснить, что наивный Байес означает ; это предполагает независимость от переменных. Чтобы сделать это конкретным, скажем, мы хотим предсказать, прошел ли кто-нибудь через Проспект Парк в Бруклине. У нас есть данные о том, являются ли они

а) жить в Нью-Йорке

б) жить в городе

Наивный Байес предположил бы, что эти две переменные независимы. Но ясно, что если они живут в Нью-Йорке, они также живут в городе . Это глупый пример, потому что (надеюсь), что никто никогда не будет использовать науку данных с этими переменными, но он показывает, что означает независимость. Если а, то б. Кроме того, если не b, то не a.

Существует зависимость, поэтому Наивный Байесовский Наивный предположение не выполняется.

Weka Tutorial

Эта страница может быть полезна новичкам. Это мне очень помогает; он проходит через

Я не связан с Джейсоном Браунли. Кажется, он вроде продажный, но выгода от этого в том, что он делает все просто, поскольку он нацелен на новичков

0 голосов
/ 15 июня 2015

Каждому алгоритму присваивается каждое значение «50050000», а для других классификаторов эти значения составляют около 49,7, 87,4, 98,2 и т. Д.

...