Я использую функцию проводника Weka для классификации.
Итак, у меня есть файл .arff, с 2 функциями NUMERIC, и мой класс - двоичный 0 или 1 (например, {0,1}).
Пример:
@RELATION summary
@ATTRIBUTE feature1 NUMERIC
@ATTRIBUTE feature2 NUMERIC
@ATTRIBUTE class {1,0}
@DATA
23,11,0
20,100,1
2,36,0
98,8,1
.....
Я загружаю этот файл .arff, использую 10-кратную перекрестную проверку (без тестового файла) и выбираю NaiveBayes, затем я классифицирую данные, и это дает мне: 5 неправильно помечены, 100 правильно помечены. Пока все хорошо.
Теперь я значительно изменяю свой файл .arff (задаю совершенно случайные значения для моих атрибутов объектов). И повторите выше, и я получаю ТОЧНУЮ ту же статистику при классификации.
Я пробовал это с большим количеством изменений в моем файле .arff, различными алгоритмами классификации. Тем не менее, ТОЧНАЯ статистика (в рамках одного и того же алгоритма), независимо от того, какие значения я даю своему файлу .arff.
Я что-то здесь не так делаю?