В Weka длинные строки преобразуются в числовые данные - PullRequest
0 голосов
/ 29 августа 2018

Я использую инструмент WEKA для классификации шаблонов. Мой тип данных - строка. Я использую фильтр «StringtoWordVector» перед классификацией. Этот фильтр использует n-граммовый метод для слов. Но мои шаблоны не слова, они длинные строки и не имеют смысла. Я думаю, что этот фильтр не эффективен для моего типа данных. Как я могу преобразовать шаблоны в числовой тип данных, кроме StringtoWordVector? или этот фильтр хороший выбор для моей проблемы?

Спасибо за вашу помощь!

Пример моего файла arff:

@attribute pattern string

@attribute class  {yes,no}

@data

hahdddswga, yes

cfecrrr, yes

ffffffdddfe, yes

ggggggggggggggggh, no
...