Могу ли я определить содержимое страницы интрасети с помощью распознавания именованных объектов? - PullRequest
1 голос
/ 23 октября 2010

Я новичок в обработке естественного языка и хочу узнать больше, создав простой проект. NLTK было предложено быть популярным в НЛП, поэтому я буду использовать его в своем проекте.

Вот что я хотел бы сделать:

  • Я хочусканировать страницы внутренней сети нашей компании;приблизительно 3 тыс. страниц
  • Я хотел бы проанализировать и классифицировать содержание этих страниц на основе определенных критериев, таких как: HR, инженерия, корпоративные страницы и т. д. ...

Из чегоЯ читал до сих пор, я могу сделать это с помощью распознавания именованных объектов.Я могу описать сущности для каждой категории страниц, обучить решению NLTK и просмотреть каждую страницу, чтобы определить категорию.

Это правильный подход?Я ценю любые направления и идеи ...

Спасибо

1 Ответ

1 голос
/ 23 октября 2010

Похоже, что вы хотите сделать классификацию текста / документа , что не совсем то же самое, что Распознавание именованных объектов, где целью является распознавание любых именованных объектов (имен собственных, мест, учреждений и т. Д.) в тексте. Однако собственные имена могут быть очень полезны при выполнении классификации текста в ограниченном домене, например, вероятно, что страница с именем главного инженера может быть классифицирована как инженерная.

Книга NLTK содержит главу по базовой классификации текста .

...