Как прочитать содержимое отсканированного PDF-файла в java / jsp или в javascript - PullRequest
0 голосов
/ 11 января 2011

Как я могу прочитать содержимое отсканированного PDF-файла в java / jsp или в javascript, можете ли вы рассказать, как этого добиться с помощью разработки кода?

заранее спасибо за ответ

Ответы [ 4 ]

2 голосов
/ 15 мая 2011

Вы можете преобразовать отсканированный PDF в изображение, используя GhostScript, а затем передать его на механизм распознавания текста, например, Tesseract .Взгляните на VietOCR для примера реализации.

0 голосов
/ 08 февраля 2012

На самом деле, я сейчас работаю над тем же проектом, я делаю это в следующих шагах, и результат работает хорошо.

  1. Пользователь загружает отсканированный pdf в сервлет PDFUploader, возвращаетимя файла на стороне сервера для внешнего интерфейса, что указывает на успешную загрузку.
  2. Внешний интерфейс использует это имя файла и страницу по умолчанию 0, чтобы запросить сервлет PDFReader для получения первой страницы файла PDF, и отображение находится на внешнем интерфейсе,Вы можете преобразовать этот PDF-файл в изображение для использования iframe со встроенным устройством чтения PDF-файлов.
  3. Внешний интерфейс использует это имя файла и страницу по умолчанию 0, чтобы попросить OCRServlet выполнить OCR.Я использую WeOCR и tesseract в качестве своего механизма OCR на http-сервере Apache.Я изменил некоторые части файла submit.cgi на сервере WeOCR, поскольку знаю, какие типы форматов будет принимать сервер WeOCR.У меня все еще есть проблемы при преобразовании отсканированного PDF в изображение (я использую pdfbox)
0 голосов
/ 11 января 2011

То, что вы пытаетесь сделать (я думаю), это использовать OCR для извлечения текста из изображения PDF, созданного сканером.Java, вероятно, лучше всего подходит для этого.Есть несколько вариантов для этого, в зависимости от того, готовы ли вы заплатить за программное обеспечение для этого.Google для Java (или Javascript), PDF и OCR.

ИМО, эта задача не должна выполняться в JSP.JSP лучше всего подходят для рендеринга результатов, а не для их генерации.

0 голосов
/ 11 января 2011

Google для всего, что связано с OCR, лучше всего будет использовать существующие библиотеки, такие как http://asprise.com/product/ocr/index.php?lang=java

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...