Извлечь текст из PDF (Google App Engine) - PullRequest
2 голосов
/ 27 марта 2010

Существует ли бесплатная библиотека Java для извлечения текста из PDF, совместимая с Google Application Engine?

Я читал о PDFJet, но он не может читать PDF, не так ли?

Есть ли другой способ извлечения текста из PDF? Я пробовал http://www.pdfdownload.org/, к сожалению, они не правильно обрабатывают неанглийские символы.

Ответы [ 5 ]

3 голосов
/ 28 марта 2010

iText теперь имеет модуль синтаксического анализа текста (я один из авторов парсера). См. Com.itextpdf.text.pdf.parser.PdfContentReaderTool класс для примера того, как его использовать.

2 голосов
/ 09 сентября 2012

Я изменил последнюю версию (снимок 1.8.0) для запуска в Google AppEngine. Пришлось отключить один юнит-тест, но он отлично работает для простого извлечения текста.

Следуя простому подходу try-fail-fix, мне пришлось изменить всего 5 файлов. Довольно выполнимо.

Вам также придется явно использовать RandomAccessBuffer, как объяснил Фабрицио.

Для очень ленивых, вот скомпилированный jar, зависимости для извлечения текста и патч. Обратите внимание, что это может не работать для каждого варианта использования (т.е. извлечение на основе прямоугольника). Использовал его для извлечения текста всей страницы. https://docs.google.com/folder/d/0B53n_gP2oU6iVjhOOVBNZHk0a0E/edit

2 голосов
/ 16 апреля 2010

PdfBox не работает на GAE. Он использует недопустимые классы Java.
(GAE разрешает только эти http://code.google.com/appengine/docs/java/jrewhitelist.html)

Я частично изменил очень старую версию PdfBox (0.7.3), чтобы быть жалобным GAE. Теперь я могу извлечь текст из PDF (целую страницу или прямоугольную область). Я изменил только минимальную часть извлечения текста PDF, а не весь PdfBox. :)
Идея состояла в том, чтобы удалить ссылки на java.awt.retangle & C. используя мой собственный класс "rectangle".

Подробнее: http://fhtino.blogspot.com/2010/04/pdfbox-text-extration-gae.html

1 голос
/ 27 марта 2010

Я знаю, что есть http://pdfbox.apache.org/index.html

Apache PDFBox является открытым исходным кодом Java PDF библиотека для работы с PDF документы. Этот проект позволяет создание новых PDF документов, манипулирование существующими документами и возможность извлекать контент из документы.

но я никогда не проверял это.

0 голосов
/ 02 февраля 2011

В прошлом месяце я только что закончил извлекать текст из PDF-файла в моем проекте. Я использовал инструмент XPDF для получения текста и текстовых координат, но я использовал его в Xcode (Objective-C). Этот инструмент был открытым исходным кодом, написан на C ++ и мог быть закодирован на многих языках. Однако я не знал, будет ли XPdf работать на вашей Java или нет. Во всяком случае, вы можете попробовать этот инструмент.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...