извлечение почтовых адресов из PDF-файлов - PullRequest
3 голосов
/ 05 июля 2011

Существуют ли какие-либо библиотеки / наборы инструментов, которые бы помогли мне в извлечении информации об почтовых адресах из неструктурированных PDF-документов (например, писем)?Если нет, то как бы вы подошли к этой задаче?

Я думал об использовании библиотеки PDF с открытым исходным кодом и поиске информации с помощью шаблонов регулярных выражений, но я не уверен, возможно ли надежно идентифицировать адреса с помощью этого простогоподход.К сожалению, курс интеллектуального анализа данных, который я посещал, не затрагивал анализ текста, а касался только структурированных данных.Может быть, кто-то, работающий над обработкой естественного языка, знает полезную библиотеку или инструментарий?

Ответы [ 2 ]

1 голос
/ 06 июля 2011

Я бы порекомендовал http://pdfbox.apache.org для чтения pdf (т.е. преобразования в текст) и http://code.google.com/p/graph-expression/ для написания грамматики почтовых адресов.

0 голосов
/ 06 июля 2011

Используйте pdf2xml или любую другую PDF-библиотеку / инструментарий и используйте вашу любимую поисковую систему для поиска «извлечения почтового адреса» и ограничьте свой поиск типом файла pdf.

...