Распознавание именованных сущностей из личного вестника с использованием Python - PullRequest
4 голосов
/ 23 февраля 2011

Я пытаюсь сделать именованную сущность в Python, используя NLTK.Я хочу извлечь личный список навыков.У меня есть список навыков, и я хотел бы найти их в заявке и пометить навыки.Я заметил, что в NLTK есть тег NER для предопределенных тегов, таких как Person, Location и т. Д. Есть ли в Python внешний тег gazetter, который я могу использовать?Любая идея, как сделать это более сложным, чем поиск терминов (иногда термин из нескольких слов)?

Спасибо, Ассаф

Ответы [ 2 ]

1 голос
/ 09 августа 2011

Посмотрите на RegexpTagger и в конечном итоге RegexpParser , я думаю, это именно то, что вы ищете.

Вы можете создавать свои собственные POS-теги, т.е. привязать навыки к тегу, а затем легко определить грамматику.

В этом pdf-файле .

приведен пример кода для теггера .
1 голос
/ 10 июля 2011

В последнее время я недостаточно использовал NLTK, но если у вас есть слова, которые, как вы знаете, являются навыками, вам не нужно делать NER - просто текстовый поиск.

Возможно, используйте Lucene или какой-либо другой поискбиблиотека, чтобы найти текст, а затем аннотировать его?Это много работы, но если вы работаете с большим количеством данных, это может быть хорошо.В качестве альтернативы вы можете объединить поиск регулярных выражений, который будет медленнее, но, вероятно, будет работать нормально для небольших объемов данных и будет намного проще в реализации.

...