Какое программное обеспечение и методы для извлечения собственных имен из текста? - PullRequest
1 голос
/ 22 января 2011

У меня большой массив текстовых документов (более 100 000), из которых я хочу извлечь собственные имена (например, имя человека).

Может ли кто-нибудь порекомендовать методы и / или программное обеспечение, которые будут полезныв достижении этой цели.Меня не особо интересует разбор текста низкого уровня, так как я занимаюсь вещами более высокого уровня, такими как распознавание и / или ранжирование.

Ответы [ 4 ]

4 голосов
/ 22 января 2011

Вы ищете распознавание именованных объектов? Взгляните на статью wikipedia .

Группа Stanford NLP имеет приличный готовый к использованию пакет здесь с доступными лицензиями GPL и коммерческими лицензиями.

1 голос
/ 22 января 2011

Нечто подобное не может быть надежно сделано без какой-либо формы Обработка естественного языка . Несколько распространенных проблем:

  • Имена, которые также являются общими словами: John Black

  • Несколько языков и различные формы одного и того же слова.

  • Имена, которые относятся к разным вещам. Lily может быть именем человека, места, кошки или просто цветка.

НЛП может использовать окружающие грамматические конструкции, чтобы отделить некоторые из этих случаев.

Тем не менее, простой (и наивный) метод, который вы могли бы попробовать, состоял бы в использовании заглавных букв слов. Если в середине предложения вы видите заглавную букву, обычно это какое-то имя.

Возможно, вы сможете разумно предположить, что любое такое слово относится к одной и той же вещи в одном и том же документе. Два таких слова в последовательности, вероятно, представляют собой комбинацию имени / фамилии и т. Д.

Если в документах нельзя доверять заглавными буквами, вместо этого вы можете доверять заглавным буквам в правильном списке слов, чтобы получить список имен собственных для соответствующих языков.

0 голосов
/ 22 января 2011

Что если вы составили список всех уникальных слов, а затем удалили все слова из словаря?

0 голосов
/ 22 января 2011

Вероятно, вам лучше всего сравнить каждое слово со словарем собственных имен.

...