Нечто подобное не может быть надежно сделано без какой-либо формы Обработка естественного языка . Несколько распространенных проблем:
Имена, которые также являются общими словами: John Black
Несколько языков и различные формы одного и того же слова.
Имена, которые относятся к разным вещам. Lily
может быть именем человека, места, кошки или просто цветка.
НЛП может использовать окружающие грамматические конструкции, чтобы отделить некоторые из этих случаев.
Тем не менее, простой (и наивный) метод, который вы могли бы попробовать, состоял бы в использовании заглавных букв слов. Если в середине предложения вы видите заглавную букву, обычно это какое-то имя.
Возможно, вы сможете разумно предположить, что любое такое слово относится к одной и той же вещи в одном и том же документе. Два таких слова в последовательности, вероятно, представляют собой комбинацию имени / фамилии и т. Д.
Если в документах нельзя доверять заглавными буквами, вместо этого вы можете доверять заглавным буквам в правильном списке слов, чтобы получить список имен собственных для соответствующих языков.