Я думаю, что проблему следует разбить на два поисковых домена:
- Поиск информации о собственных именах
- Поиск информации, которая является формальной
Во-первых, информацию, относящуюся к собственным именам, вероятно, лучше всего найти путем поиска предметов, которые являются либо грамматически важными, либо значимыми. То есть В английском языке используется только первое слово предложения и собственные существительные. Для грамматических правил вы можете найти все слова, в которых первая буква слова написана заглавными буквами, и сравнить их с базой данных, содержащей слово и тип [т.е. Боб - Имя, Элон - Место, Англия - Место].
Во-вторых: информация, которая является формальной. Это больше об адресах электронной почты, телефонных номерах и физических адресах. Все они имеют определенные форматы, которые не меняются. Используйте регулярные выражения и используйте алгоритм для определения качества совпадений.
Берегись:
Грамматические правила меняются в зависимости от языка. Немецкий пишется с заглавной буквы КАЖДОЕ существительное. Лучше всего определить язык документа до применения ваших правил. Кроме того, другая проблема с этим [и моим резюме иногда] - как это разработано. Если резюме было разработано с помощью чего-то иного, чем текстовый редактор [дизайнерские инструменты], текст может не совпадать или иметь формат растрового изображения.
TL; DR Версия: методы НЛП могут вам очень помочь.