Я пытаюсь классифицировать мои HTML-файлы на основе их содержимого. Используя JSoup, я получил заголовок и описание HTML-файла. И затем, используя opennlp Sentence Detector, я определил массив предложений.
Однако я не уверен, что делать дальше. Я могу просто найти определенные ключевые слова в этих предложениях и выполнить классификацию, но опять же возникает ощущение, что я пишу простое if..else..
утверждение, не используя весь потенциал НЛП.
Я бы хотел обучить свой код для классификации, но я не уверен, как этого достичь.