Использование C # для поиска OCR (с возможностью поиска) PDF - PullRequest
4 голосов
/ 16 февраля 2011

Мне нужно извлечь текст из PDF-файла, который уже был преобразован с помощью программы OCR. Должен ли я использовать обычный PDFReader для получения текста, или преобразованный в OCR PDF требует специальной обработки?

Ответы [ 2 ]

2 голосов
/ 16 февраля 2011

Это зависит от того, как оно было преобразовано. Многие приложения OCR каким-то образом помещают текст под изображение. Некоторые делают это, кладя текст сначала, помещая изображение сверху. Некоторые помещают изображение внизу, а затем кладут текст сверху, используя режим передачи «не отмечать».

Я упоминаю об этом, потому что не могу предсказать, как какой-либо конкретный инструмент извлечения текста будет реагировать на прозрачный текст. Теоретически, он должен просто дать вам текст (это то, что делает Acrobat). Насколько это происходит в действительности во всех инструментах извлечения текста, можно только догадываться.

0 голосов
/ 16 февраля 2011

Существует ряд коммерческих SDK для работы с PDF-файлами. http://www.foxitsoftware.com/pdf/sdk/activex/ Вот лиса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...