Question

Я новичок в обработке естественного языка и хочу узнать больше, создав простой проект. NLTK было предложено быть популярным в НЛП, поэтому я буду использовать его в своем проекте.

Вот что я хотел бы сделать:

Я хочусканировать страницы внутренней сети нашей компании;приблизительно 3 тыс. страниц
Я хотел бы проанализировать и классифицировать содержание этих страниц на основе определенных критериев, таких как: HR, инженерия, корпоративные страницы и т. д. ...

Из чегоЯ читал до сих пор, я могу сделать это с помощью распознавания именованных объектов.Я могу описать сущности для каждой категории страниц, обучить решению NLTK и просмотреть каждую страницу, чтобы определить категорию.

Это правильный подход?Я ценю любые направления и идеи ...

Спасибо

Johan Benum Evensberget · Answer 1 · 23 октября 2010

Похоже, что вы хотите сделать классификацию текста / документа , что не совсем то же самое, что Распознавание именованных объектов, где целью является распознавание любых именованных объектов (имен собственных, мест, учреждений и т. Д.) в тексте. Однако собственные имена могут быть очень полезны при выполнении классификации текста в ограниченном домене, например, вероятно, что страница с именем главного инженера может быть классифицирована как инженерная.

Книга NLTK содержит главу по базовой классификации текста .

Могу ли я определить содержимое страницы интрасети с помощью распознавания именованных объектов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Могу ли я определить содержимое страницы интрасети с помощью распознавания именованных объектов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы