Pdf Parsing Challenge - PullRequest
       3

Pdf Parsing Challenge

1 голос
/ 18 мая 2011

У меня следующая проблема: у меня много документов в формате pdf, и мне нужно извлечь информацию с первой страницы каждой страницы, а затем сохранить ее в базе данных

Мне просто нужно извлечь, название, реферат, ключевые слова, список авторов, список университетов, электронные письма. Я хочу сделать скрипт, чтобы получить строку для каждого из этих полей, для каждой статьи.

Как я могу это сделать? Кто-нибудь уже сделал это? Какие языки и инструменты вы мне порекомендуете? и существует ли бумажный репозиторий, который уже выполняет эту базу данных?

Учитывая, что PDF-файлы могут быть с разными кодировками, я тоже должен решить эту проблему. Любая помощь с этим была бы великолепна.

Пример бумаги здесь

Привет! * * 1013

Ответы [ 2 ]

1 голос
/ 18 мая 2011

http://pdfbox.apache.org/

Вы должны проверить безопасность PDF, что это действительно текст, а не изображение.Проверьте приложение командной строки pdfbox, если оно работает, извлекая текст, тогда вы можете использовать jar и использовать http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/ExtractTextByArea.html

Надеюсь, это поможет ....

Кстати, это Java...

редактировать.Я не использовал это как библиотеку jar http://www.qoppa.com/pdftext/,, но я использовал пример приложения, и он работает, но я решил пойти с pdfbox ...

0 голосов
/ 18 мая 2011
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...