Создание / запуск потокового текстового классификатора Weka на Java - PullRequest
3 голосов
/ 27 августа 2011

Мы использовали графический интерфейс Weka Explorer для создания нескольких моделей классификаторов. Теперь, когда тестирование завершено, мы хотели бы реализовать эту модель в приложении Java, чтобы оно могло принимать новые сообщения.

Таким образом, для новых сообщений нам нужно токенизировать сообщение, сопоставить токены в сообщении с токенами, использованными для построения вектора слов для модели, а затем проанализировать этот вектор слов для модели.

Как мы должны идти по этому процессу? Есть ли примеры?

Как мы имеем дело с новыми токенами (то есть словами, которые появляются в новых текстовых сообщениях, которые не являются частью слова-вектора, используемого для построения модели)?

Для предварительной обработки / токенизации классификатора мы используем NGram Tokenizer, Stemmer и IDF Transform. Поэтому нам нужно выяснить, как выполнить эти шаги, прежде чем мы сможем создать новый экземпляр на основе текста, который мы хотели бы классифицировать.

В качестве стороны При построении классификатора в проводнике в дополнительных параметрах есть кнопка для выбора «Вывод кода классификатора», который звучит так, как будто он выводит исходный код Java для построения и использования модели, однако эта опция отключена. Протестировано с рядом различных классификаторов (RF, NB), и оно не меняется. Я предполагаю, что это не реализовано для этих?

Ура! * * 1013

1 Ответ

1 голос
/ 27 августа 2011

Насколько мне известно, вам нужно переобучить классификатор weka, когда прибудет новый учебный образец. Мне неизвестен алгоритм онлайн-классификации в Wekka.

пс. Weka основан на Java, поэтому вы можете использовать его библиотеки в своем приложении. Вот хороший пример: http://weka.wikispaces.com/Use+WEKA+in+your+Java+code.

...