Как использовать 2 набора данных, 1 для обучения и 1 для тестирования на WEKA для анализа настроений - PullRequest
0 голосов
/ 26 декабря 2018

Итак, у меня есть 3 набора данных, которые я использовал для анализа настроений, и я хочу использовать только 1 набор данных для построения модели и остальную часть набора данных для целей тестирования.Я буду использовать модель SVM (SMO algoritm).Наборы данных при запуске имеют только 2 атрибута (текст, метка), но после предварительной обработки со строкой в ​​wordvector становятся многими атрибутами.Я смог построить модель и протестировать ее, используя 10-кратную перекрестную проверку, и теперь я хочу протестировать ее с другим набором данных.Но так как он имеет разные атрибуты из-за строки в векторное слово, я не могу этого сделать.Какое-нибудь решение для моей проблемы?

Я уже применил тот же препроцесс к тестовому набору и попытался использовать «inputmappedclassifier», но в результате все равно ошибка

Я надеялся, что модель может быть использована в наборах данныхчто он никогда не увидит

1 Ответ

0 голосов
/ 27 декабря 2018

См. http://jmgomezhidalgo.blogspot.com/2013/05/mapping-vocabulary-from-train-to-test.html

Если вы знаете как данные поезда, так и тестовые данные, вы можете использовать пакетную фильтрацию.

Если вы не знаете тестовые данные, вы можете использовать метод FilteredClassfier.Проверьте http://jmgomezhidalgo.blogspot.com/2013/01/text-mining-in-weka-chaining-filters.html и http://jmgomezhidalgo.blogspot.com/2013/04/a-simple-text-classifier-in-java-with.html

Также взгляните на Как использовать StringToWordVector (weka) в Java?

...