Question

Как я могу прочитать содержимое отсканированного PDF-файла в java / jsp или в javascript, можете ли вы рассказать, как этого добиться с помощью разработки кода?

заранее спасибо за ответ

nguyenq · Answer 1 · 15 мая 2011

Вы можете преобразовать отсканированный PDF в изображение, используя GhostScript, а затем передать его на механизм распознавания текста, например, Tesseract .Взгляните на VietOCR для примера реализации.

user200340 · Answer 2 · 08 февраля 2012

На самом деле, я сейчас работаю над тем же проектом, я делаю это в следующих шагах, и результат работает хорошо.

Пользователь загружает отсканированный pdf в сервлет PDFUploader, возвращаетимя файла на стороне сервера для внешнего интерфейса, что указывает на успешную загрузку.
Внешний интерфейс использует это имя файла и страницу по умолчанию 0, чтобы запросить сервлет PDFReader для получения первой страницы файла PDF, и отображение находится на внешнем интерфейсе,Вы можете преобразовать этот PDF-файл в изображение для использования iframe со встроенным устройством чтения PDF-файлов.
Внешний интерфейс использует это имя файла и страницу по умолчанию 0, чтобы попросить OCRServlet выполнить OCR.Я использую WeOCR и tesseract в качестве своего механизма OCR на http-сервере Apache.Я изменил некоторые части файла submit.cgi на сервере WeOCR, поскольку знаю, какие типы форматов будет принимать сервер WeOCR.У меня все еще есть проблемы при преобразовании отсканированного PDF в изображение (я использую pdfbox)

Stephen C · Answer 3 · 11 января 2011

То, что вы пытаетесь сделать (я думаю), это использовать OCR для извлечения текста из изображения PDF, созданного сканером.Java, вероятно, лучше всего подходит для этого.Есть несколько вариантов для этого, в зависимости от того, готовы ли вы заплатить за программное обеспечение для этого.Google для Java (или Javascript), PDF и OCR.

ИМО, эта задача не должна выполняться в JSP.JSP лучше всего подходят для рендеринга результатов, а не для их генерации.

Peter · Answer 4 · 11 января 2011

Google для всего, что связано с OCR, лучше всего будет использовать существующие библиотеки, такие как http://asprise.com/product/ocr/index.php?lang=java

Как прочитать содержимое отсканированного PDF-файла в java / jsp или в javascript

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как прочитать содержимое отсканированного PDF-файла в java / jsp или в javascript

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы