Я использую инструмент WEKA для классификации шаблонов. Мой тип данных - строка. Я использую фильтр «StringtoWordVector» перед классификацией. Этот фильтр использует n-граммовый метод для слов. Но мои шаблоны не слова, они длинные строки и не имеют смысла. Я думаю, что этот фильтр не эффективен для моего типа данных. Как я могу преобразовать шаблоны в числовой тип данных, кроме StringtoWordVector? или этот фильтр хороший выбор для моей проблемы?
Спасибо за вашу помощь!
Пример моего файла arff:
@attribute pattern string
@attribute class {yes,no}
@data
hahdddswga, yes
cfecrrr, yes
ffffffdddfe, yes
ggggggggggggggggh, no