Мы использовали графический интерфейс Weka Explorer для создания нескольких моделей классификаторов. Теперь, когда тестирование завершено, мы хотели бы реализовать эту модель в приложении Java, чтобы оно могло принимать новые сообщения.
Таким образом, для новых сообщений нам нужно токенизировать сообщение, сопоставить токены в сообщении с токенами, использованными для построения вектора слов для модели, а затем проанализировать этот вектор слов для модели.
Как мы должны идти по этому процессу? Есть ли примеры?
Как мы имеем дело с новыми токенами (то есть словами, которые появляются в новых текстовых сообщениях, которые не являются частью слова-вектора, используемого для построения модели)?
Для предварительной обработки / токенизации классификатора мы используем NGram Tokenizer, Stemmer и IDF Transform. Поэтому нам нужно выяснить, как выполнить эти шаги, прежде чем мы сможем создать новый экземпляр на основе текста, который мы хотели бы классифицировать.
В качестве стороны При построении классификатора в проводнике в дополнительных параметрах есть кнопка для выбора «Вывод кода классификатора», который звучит так, как будто он выводит исходный код Java для построения и использования модели, однако эта опция отключена. Протестировано с рядом различных классификаторов (RF, NB), и оно не меняется. Я предполагаю, что это не реализовано для этих?
Ура! * * 1013