Существуют ли какие-либо библиотеки / наборы инструментов, которые бы помогли мне в извлечении информации об почтовых адресах из неструктурированных PDF-документов (например, писем)?Если нет, то как бы вы подошли к этой задаче?
Я думал об использовании библиотеки PDF с открытым исходным кодом и поиске информации с помощью шаблонов регулярных выражений, но я не уверен, возможно ли надежно идентифицировать адреса с помощью этого простогоподход.К сожалению, курс интеллектуального анализа данных, который я посещал, не затрагивал анализ текста, а касался только структурированных данных.Может быть, кто-то, работающий над обработкой естественного языка, знает полезную библиотеку или инструментарий?