Войти

Запомнить

Регистрация

PullRequest

Лента
Топ
Теги
Новая

Новая

Jason 25 июня 2010 4

Доступ к тексту, распознаваемому Acrobat OCR

0 голосов

Jason / 25 июня 2010

У меня есть файлы PDF, которые были «распознаны» с помощью функции распознавания текста OCR -> Распознать текст с помощью функции OCR в Acrobat.

Я хотел бы принять их в качестве загрузки (C # ASP.NET MVC) и иметь возможность извлекать эту информацию для целей индексации и поиска.

Я попытался открыть PDF-файлы и не нашел ни одного распознанного текста, поэтому предположил, что он сжати / или закодированы.

Есть идеи?

C #
PDF
OCR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

3 голосов

Sjoerd / 25 июня 2010

В CodeProject есть статья, в которой объясняется, как можно извлекать текст из PDF с помощью C #.
xpdf и poppler иметь pdftotext инструментов.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

обнаружение вертикальных текстов (контейнер BI C коды) с помощью tesseract OCR не удается
AWS -Textract-Key-Value-Pair Java - поток «основной» java .lang.NullPointerException
Как Tesseract OCR обнаруживает языки?
Tesseract 4.5 возвращает несколько результатов для одной и той же структуры изображения
Как извлечь пиксели определенного цвета c для распознавания текста?
Можно ли раскрасить область c в контуре рисования в python?
Tesseract ocr ведет себя странно, увеличивая размер изображения. Как узнать, какой масштабный коэффициент лучше всего подходит для определенных типов изображений?
Как я могу извлечь определенные c тексты из HTML файла с помощью Notepad ++ или Adobe Dreamweaver?
Обучение оптическому распознаванию компьютерного зрения
Можно ли отобразить компонент формы вне пользовательского интерфейса формы? C#

...