В weka вы можете выбрать свой собственный атрибут. В этом примере у нас есть только 2 класса, и все уникальные слова используются в качестве атрибутов. Если в качестве атрибута вы выбираете частоту слов, вы назначаете «2», если это слово встречается в вашем тексте дважды, и «0», если нет, или «1», если это слово встречается только один раз.
Вот пример .arff формата.
@RELATION anyrelation
@ATTRIBUTE word1
@ATTRIBUTE word2
...
@ATTRIBUTE wordn
@ATTRIBUTE class {class1, class2}
@DATA
1,2,....,0,class1
0,3,....,1,class2