Question

У меня следующая проблема: у меня много документов в формате pdf, и мне нужно извлечь информацию с первой страницы каждой страницы, а затем сохранить ее в базе данных

Мне просто нужно извлечь, название, реферат, ключевые слова, список авторов, список университетов, электронные письма. Я хочу сделать скрипт, чтобы получить строку для каждого из этих полей, для каждой статьи.

Как я могу это сделать? Кто-нибудь уже сделал это? Какие языки и инструменты вы мне порекомендуете? и существует ли бумажный репозиторий, который уже выполняет эту базу данных?

Учитывая, что PDF-файлы могут быть с разными кодировками, я тоже должен решить эту проблему. Любая помощь с этим была бы великолепна.

Пример бумаги здесь

Привет! * * 1013

jjchiw · Answer 1 · 18 мая 2011

http://pdfbox.apache.org/

Вы должны проверить безопасность PDF, что это действительно текст, а не изображение.Проверьте приложение командной строки pdfbox, если оно работает, извлекая текст, тогда вы можете использовать jar и использовать http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/ExtractTextByArea.html

Надеюсь, это поможет ....

Кстати, это Java...

редактировать.Я не использовал это как библиотеку jar http://www.qoppa.com/pdftext/,, но я использовал пример приложения, и он работает, но я решил пойти с pdfbox ...

Luc M · Answer 2 · 18 мая 2011

Вам нужен API для чтения вашего pdf.

Кажется, хорошо (хотя я никогда не пробую)

Возможно, вы найдете других по этой ссылке: -)

Pdf Parsing Challenge

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pdf Parsing Challenge

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов