Ошибка загрузки данных Weka - PullRequest
2 голосов
/ 22 января 2012

Я хочу загрузить данные в Breast-Cancer-Wisconsin через Weka Explorer в виде файла данных C4.5, и я получаю следующие ошибки при выборе обоих для загрузки C4.5 .data и C4.5. Имена: enter image description here enter image description here

Есть идеи?

1 Ответ

5 голосов
/ 24 января 2012

Не похоже, что файл C45 names правильный. Попробуйте заменить breast-cancer-wisconsin.names на этот:

2, 4.
clump: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
size: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
shape: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
adhesion: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
epithelial: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
nuclei: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
chromatin: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
nucleoli: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
mitoses: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.

Обратите внимание, что класс стоит на первом месте (только метки).

Здесь я удалил первый столбец идентификатора субъектов в исходном наборе данных, используя

$ cut -d, -f2-11 breast-cancer-wisconsin.data > breast-cancer-wisconsin.data

но адаптировать приведенный выше код несложно.

Альтернативные решения:

  1. Создайте файл CSV: вам просто нужно добавить заголовок к файлу *.data и переименовать его в *.csv. Например, замените breast-cancer-wisconsin.data на breast-cancer-wisconsin.csv, который должен выглядеть как

    clump,size,shape,adhesion,epithelial,nuclei,chromatin,nucleoli,mitoses,class
    5,1,1,1,2,1,3,1,1,2
    5,4,4,5,7,10,3,2,1,2
    3,1,1,1,2,2,3,1,1,2
    6,8,8,1,3,4,3,7,1,2
    ...
    
  2. Создайте непосредственно файл *.arff вручную; это не очень сложно, так как есть несколько переменных. Файл примера можно найти здесь .

...