Я новичок в обработке естественного языка и хочу узнать больше, создав простой проект. NLTK было предложено быть популярным в НЛП, поэтому я буду использовать его в своем проекте.
Вот что я хотел бы сделать:
- Я хочусканировать страницы внутренней сети нашей компании;приблизительно 3 тыс. страниц
- Я хотел бы проанализировать и классифицировать содержание этих страниц на основе определенных критериев, таких как: HR, инженерия, корпоративные страницы и т. д. ...
Из чегоЯ читал до сих пор, я могу сделать это с помощью распознавания именованных объектов.Я могу описать сущности для каждой категории страниц, обучить решению NLTK и просмотреть каждую страницу, чтобы определить категорию.
Это правильный подход?Я ценю любые направления и идеи ...
Спасибо