Как получить подходящий формат входного файла для Weka Tool? - PullRequest
2 голосов
/ 08 апреля 2011

Я использую инструмент weka, чтобы попытаться сгенерировать набор правил классификации из набора данных. Набор данных в настоящее время представляет собой файл .txt в форме:

webpage attr1 attr2 attr3.....attrn type
try.html  1     2    3.....

(каждое слово отделено вкладкой)

Как мне преобразовать это в подходящий входной файл для weka? Я попытался преобразовать его в CSV, а затем в формат ARFF, но он не работает и продолжает давать мне одну из 2 ошибок header stream is invalid или attribute names are not unique.

1 Ответ

2 голосов
/ 08 апреля 2011

Файл ARFF имеет следующий формат:

@RELATION aNameForTheRelation

@ATTRIBUTE attr_0 TYPE
@ATTRIBUTE attr_1 TYPE
% ... (this' a comment)
@ATTRIBUTE attr_N TYPE

@DATA
sample_0_attr_0_v,sample_0_attr_1_v,...,sample_0_attr_N_v
sample_1_attr_1_v,sample_1_attr_1_v,...,sample_1_attr_N_v
% ...
sample_M_attr_1_v,sample_M_attr_1_v,...,sample_M_attr_N_v

В основном это может быть файл CSV с заголовком.Вы пытались вручную написать заголовок файла ARFF и добавить информацию о файле CSV?Возможно, инструменту автоматизации не удалось определить правильное именование атрибутов в результирующем ARFF

...