Как я могу классифицировать файлы HTML? - PullRequest
1 голос
/ 23 марта 2019

Я пытаюсь классифицировать мои HTML-файлы на основе их содержимого. Используя JSoup, я получил заголовок и описание HTML-файла. И затем, используя opennlp Sentence Detector, я определил массив предложений.

Однако я не уверен, что делать дальше. Я могу просто найти определенные ключевые слова в этих предложениях и выполнить классификацию, но опять же возникает ощущение, что я пишу простое if..else.. утверждение, не используя весь потенциал НЛП.

Я бы хотел обучить свой код для классификации, но я не уверен, как этого достичь.

...