Ниже приведен пример выходных данных для наивного байесовского классификатора с использованием 10-кратной перекрестной проверки. Там много информации, и то, на чем вы должны сосредоточиться, зависит от вашего приложения. Ниже я объясню некоторые результаты, чтобы вы начали.
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 71 71 %
Incorrectly Classified Instances 29 29 %
Kappa statistic 0.3108
Mean absolute error 0.3333
Root mean squared error 0.4662
Relative absolute error 69.9453 %
Root relative squared error 95.5466 %
Total Number of Instances 100
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.967 0.692 0.686 0.967 0.803 0.709 0
0.308 0.033 0.857 0.308 0.453 0.708 1
Weighted Avg. 0.71 0.435 0.753 0.71 0.666 0.709
=== Confusion Matrix ===
a b <-- classified as
59 2 | a = 0
27 12 | b = 1
Правильно и неправильно классифицированные экземпляры показывают процент тестовых экземпляров, которые были правильно и неправильно классифицированы. Необработанные числа показаны в путанице, где a
и b
представляют метки классов. Здесь было 100 экземпляров, так что проценты и необработанные числа складываются, aa
+ bb
= 59 + 12 = 71, ab
+ ba
= 27 + 2 = 29.
Процент правильно классифицированных случаев часто называют точностью или точностью выборки. У него есть некоторые недостатки, такие как оценка производительности (не скорректированная случайностью, не чувствительная к распределению классов), поэтому вы, вероятно, захотите взглянуть на некоторые другие цифры. Область ROC, или область под кривой ROC, является моей предпочтительной мерой.
Каппа - это скорректированная на случайность мера согласия между классификациями и истинными классами. Он рассчитывается путем отвлечения ожидаемого соглашения от наблюдаемого соглашения и деления на максимально возможное соглашение. Значение больше 0 означает, что ваш классификатор работает лучше, чем шанс (так и должно быть!).
Коэффициенты ошибок используются для численного прогнозирования, а не для классификации. В численном прогнозировании прогнозы не просто правильные или неправильные, ошибка имеет величину, и эти показатели отражают это.
Надеюсь, это поможет вам.