Question

Мне нужно извлечь текст из PDF-файла, который уже был преобразован с помощью программы OCR. Должен ли я использовать обычный PDFReader для получения текста, или преобразованный в OCR PDF требует специальной обработки?

plinth · Answer 1 · 16 февраля 2011

Это зависит от того, как оно было преобразовано. Многие приложения OCR каким-то образом помещают текст под изображение. Некоторые делают это, кладя текст сначала, помещая изображение сверху. Некоторые помещают изображение внизу, а затем кладут текст сверху, используя режим передачи «не отмечать».

Я упоминаю об этом, потому что не могу предсказать, как какой-либо конкретный инструмент извлечения текста будет реагировать на прозрачный текст. Теоретически, он должен просто дать вам текст (это то, что делает Acrobat). Насколько это происходит в действительности во всех инструментах извлечения текста, можно только догадываться.

VoronoiPotato · Answer 2 · 16 февраля 2011

Существует ряд коммерческих SDK для работы с PDF-файлами. http://www.foxitsoftware.com/pdf/sdk/activex/ Вот лиса.

Использование C # для поиска OCR (с возможностью поиска) PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование C # для поиска OCR (с возможностью поиска) PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы