Чтобы преобразовать его в формат ARFF, вам необходимо назначить каждому уникальному слову идентификатор столбца.Затем преобразуйте векторы в разреженные векторы ARFF, которые выглядят следующим образом:
{<colnr> <value>, <colnr> <value>, ...}
Где colnr - это номер атрибута integer (уникальный идентификатор столбца, который вы присвоили слову).Я считаю, что их нужно заказывать по возрастанию.
В качестве альтернативы, вы можете попробовать ELKI .Кажется, что намного больше кластеризации, чем Weka.Он имеет API синтаксического анализатора для пары форматов, может быть, один из этих форматов соответствует вашим потребностям или может быть более легко адаптирован к вашим потребностям.
TermFrequencyParser кажется почти тем, что вам нужно:
Анализатор для загрузки данных частоты терминов, которые по сути являются разреженными векторами с текстовыми ключами.
Анализ файла, содержащего частоты терминов.Ожидаемый формат: «label term1 term2 ...».Термины не должны содержать символ разделителя!
Вероятно, вы можете просто установить шаблон разделителя на [, =]+
, и он сразу же прочитает ваш файл.