интерпретация наивных байесовских результатов - PullRequest
5 голосов
/ 06 сентября 2010

Я начинаю использовать NaiveBayes / Simple классификатор для классификации (Weka), однако у меня есть некоторые проблемы, которые необходимо понять при обучении данных.Набор данных, который я использую, - weather.nominal.arff.

alt text

В то время как я использую использовать тест обучения из опций, результат классификатора:

Correctly Classified Instances 13  -  92.8571 %    
Incorrectly Classified Instances 1 - 7.1429 %   

a b classified as  
9 0  a =yes
1 4  b = no

Мой первый вопрос, что я должен понять из неправильно классифицированногослучаи?Почему возникла такая проблема?какая коллекция атрибутов классифицирована неверно?Есть ли способ понять это?

Во-вторых, когда я пробую 10-кратную перекрестную проверку, почему я получаю разные (менее) правильно классифицированные экземпляры?

Результаты:

Correctly Classified Instances           8               57.1429 %
Incorrectly Classified Instances         6               42.8571 %

 a b   <-- classified as
 7 2 | a = yes
 4 1 | b = no

1 Ответ

8 голосов
/ 06 сентября 2010

Вы можете получить индивидуальные прогнозы для каждого экземпляра, выбрав этот параметр из:

Дополнительные параметры ...> Выходные прогнозы> PlainText

Что даст вамв дополнение к метрикам оценки, следующее:

=== Predictions on training set ===

 inst#     actual  predicted error prediction
     1       2:no       2:no       0.704 
     2       2:no       2:no       0.847 
     3      1:yes      1:yes       0.737 
     4      1:yes      1:yes       0.554 
     5      1:yes      1:yes       0.867 
     6       2:no      1:yes   +   0.737 
     7      1:yes      1:yes       0.913 
     8       2:no       2:no       0.588 
     9      1:yes      1:yes       0.786 
    10      1:yes      1:yes       0.845 
    11      1:yes      1:yes       0.568 
    12      1:yes      1:yes       0.667 
    13      1:yes      1:yes       0.925 
    14       2:no       2:no       0.652 

, что указывает на то, что 6-е экземпляры были неправильно классифицированы.Обратите внимание, что даже если вы обучаете и тестируете одни и те же экземпляры, из-за несоответствий в данных может произойти неправильная классификация (самый простой пример - два экземпляра с одинаковыми характеристиками, но с разной меткой класса).

Имейте в видучто вышеупомянутый способ тестирования является предвзятым (это несколько обманывает, так как он может видеть ответы на вопросы).Таким образом, мы обычно заинтересованы в получении более реалистичной оценки ошибки модели на невидимых данных. Перекрестная проверка - это один из таких методов, при котором данные разбиваются на 10 стратифицированных сгибов, выполняется тестирование с одним сгибом, а тренировка с другими девятью, и, наконец, сообщается о средней точности по десяти прогонам.

...