В вашем тестовом наборе у вас нет победителя. Итак, у вас есть только прогнозы победителя, но "?" для фактических данных.
Некоторые варианты: 1. Просто проанализируйте тренировочный набор, но позвольте Weka выполнить разделение обучения / теста, чтобы вы могли получить меру точности. 2. Просто проанализируйте тренировочный набор, но пусть Weka сделает 10-кратную перекрестную проверку.
Вот что я получаю, используя J48 со стандартными параметрами и 10-кратной перекрестной проверкой:
Number of Leaves : 1915
Size of the tree : 1992
Time taken to build model: 2.47 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 14504 64.1543 %
Incorrectly Classified Instances 8104 35.8457 %
Kappa statistic 0.2832
Mean absolute error 0.444
Root mean squared error 0.477
Relative absolute error 88.7915 %
Root relative squared error 95.3947 %
Total Number of Instances 22608
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0.672 0.389 0.632 0.672 0.651 0.284 0.679 0.654 0
0.611 0.328 0.652 0.611 0.631 0.284 0.679 0.643 1
Weighted Avg. 0.642 0.358 0.642 0.642 0.641 0.284 0.679 0.649
=== Confusion Matrix ===
a b <-- classified as
7572 3694 | a = 0
4410 6932 | b = 1
Я не говорю, что это хорошая модель; Я просто использую это как иллюстрацию.