Не похоже, что файл C45 names правильный. Попробуйте заменить breast-cancer-wisconsin.names
на этот:
2, 4.
clump: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
size: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
shape: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
adhesion: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
epithelial: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
nuclei: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
chromatin: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
nucleoli: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
mitoses: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
Обратите внимание, что класс стоит на первом месте (только метки).
Здесь я удалил первый столбец идентификатора субъектов в исходном наборе данных, используя
$ cut -d, -f2-11 breast-cancer-wisconsin.data > breast-cancer-wisconsin.data
но адаптировать приведенный выше код несложно.
Альтернативные решения:
Создайте файл CSV: вам просто нужно добавить заголовок к файлу *.data
и переименовать его в *.csv
. Например, замените breast-cancer-wisconsin.data
на breast-cancer-wisconsin.csv
, который должен выглядеть как
clump,size,shape,adhesion,epithelial,nuclei,chromatin,nucleoli,mitoses,class
5,1,1,1,2,1,3,1,1,2
5,4,4,5,7,10,3,2,1,2
3,1,1,1,2,2,3,1,1,2
6,8,8,1,3,4,3,7,1,2
...
Создайте непосредственно файл *.arff
вручную; это не очень сложно, так как есть несколько переменных. Файл примера можно найти здесь .