Вопрос об использовании Weka, инструмента машинного обучения - PullRequest
4 голосов
/ 27 ноября 2009

Я использую функцию проводника Weka для классификации.

Итак, у меня есть файл .arff, с 2 функциями NUMERIC, и мой класс - двоичный 0 или 1 (например, {0,1}).

Пример:

@RELATION summary
@ATTRIBUTE feature1 NUMERIC
@ATTRIBUTE feature2 NUMERIC
@ATTRIBUTE class {1,0}

@DATA
23,11,0
20,100,1
2,36,0
98,8,1
.....

Я загружаю этот файл .arff, использую 10-кратную перекрестную проверку (без тестового файла) и выбираю NaiveBayes, затем я классифицирую данные, и это дает мне: 5 неправильно помечены, 100 правильно помечены. Пока все хорошо.

Теперь я значительно изменяю свой файл .arff (задаю совершенно случайные значения для моих атрибутов объектов). И повторите выше, и я получаю ТОЧНУЮ ту же статистику при классификации.

Я пробовал это с большим количеством изменений в моем файле .arff, различными алгоритмами классификации. Тем не менее, ТОЧНАЯ статистика (в рамках одного и того же алгоритма), независимо от того, какие значения я даю своему файлу .arff.

Я что-то здесь не так делаю?

Ответы [ 3 ]

4 голосов
/ 27 ноября 2009

Трудно сказать без дополнительной информации, но у меня есть два предложения:

  1. Каковы относительные пропорции двух классов? Это от 5 до 100? Многие алгоритмы плохо работают с сильно искаженным распределением меток классов.

  2. Просто догадка, но попробуйте изменить метки классов с цифр на строки (например, «class1» и «class2»). Weka называет эти «номинальные» атрибуты, поэтому, возможно, использование чисел недопустимо.

0 голосов
/ 23 марта 2010

Вы пытались изменить

@ATTRIBUTE class {1,0} 

с

@ATTRIBUTE class {yes,no} 
0 голосов
/ 11 февраля 2010

Также: имейте в виду, что перекрестная проверка довольно неприятна в пользовательском интерфейсе, так как в любом случае они показывают только оригинальное дерево (до того, как они свернутся в другие данные). Если вы хотите, чтобы были созданы конечные деревья, вам нужен программный API. Я предлагаю использовать разделенный набор обучающих / тестовых данных.

...