Question

Существует ли бесплатная библиотека Java для извлечения текста из PDF, совместимая с Google Application Engine?

Я читал о PDFJet, но он не может читать PDF, не так ли?

Есть ли другой способ извлечения текста из PDF? Я пробовал http://www.pdfdownload.org/, к сожалению, они не правильно обрабатывают неанглийские символы.

Kevin Day · Answer 1 · 28 марта 2010

iText теперь имеет модуль синтаксического анализа текста (я один из авторов парсера). См. Com.itextpdf.text.pdf.parser.PdfContentReaderTool класс для примера того, как его использовать.

icyerasor · Answer 2 · 09 сентября 2012

Я изменил последнюю версию (снимок 1.8.0) для запуска в Google AppEngine. Пришлось отключить один юнит-тест, но он отлично работает для простого извлечения текста.

Следуя простому подходу try-fail-fix, мне пришлось изменить всего 5 файлов. Довольно выполнимо.

Вам также придется явно использовать RandomAccessBuffer, как объяснил Фабрицио.

Для очень ленивых, вот скомпилированный jar, зависимости для извлечения текста и патч. Обратите внимание, что это может не работать для каждого варианта использования (т.е. извлечение на основе прямоугольника). Использовал его для извлечения текста всей страницы. https://docs.google.com/folder/d/0B53n_gP2oU6iVjhOOVBNZHk0a0E/edit

Fabrizio Accatino · Answer 3 · 16 апреля 2010

PdfBox не работает на GAE. Он использует недопустимые классы Java.
(GAE разрешает только эти http://code.google.com/appengine/docs/java/jrewhitelist.html)

Я частично изменил очень старую версию PdfBox (0.7.3), чтобы быть жалобным GAE. Теперь я могу извлечь текст из PDF (целую страницу или прямоугольную область). Я изменил только минимальную часть извлечения текста PDF, а не весь PdfBox. :)
Идея состояла в том, чтобы удалить ссылки на java.awt.retangle & C. используя мой собственный класс "rectangle".

Подробнее: http://fhtino.blogspot.com/2010/04/pdfbox-text-extration-gae.html

Pierre · Answer 4 · 27 марта 2010

Я знаю, что есть http://pdfbox.apache.org/index.html

Apache PDFBox является открытым исходным кодом Java PDF библиотека для работы с PDF документы. Этот проект позволяет создание новых PDF документов, манипулирование существующими документами и возможность извлекать контент из документы.

но я никогда не проверял это.

user599433 · Answer 5 · 02 февраля 2011

В прошлом месяце я только что закончил извлекать текст из PDF-файла в моем проекте. Я использовал инструмент XPDF для получения текста и текстовых координат, но я использовал его в Xcode (Objective-C). Этот инструмент был открытым исходным кодом, написан на C ++ и мог быть закодирован на многих языках. Однако я не знал, будет ли XPdf работать на вашей Java или нет. Во всяком случае, вы можете попробовать этот инструмент.

Извлечь текст из PDF (Google App Engine)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечь текст из PDF (Google App Engine)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов