Как перенести текст OCR из одного PDF в другой PDF? - PullRequest
0 голосов
/ 06 апреля 2020

У меня есть две версии одного и того же отсканированного PDF. Один из них имеет слой OCR. Как я могу перенести слой на другой? Я уже установил Ghostscript, но не знаю, что делать дальше.

Как использовать Ghostscript

1 Ответ

1 голос
/ 06 апреля 2020

В PDF нет такого понятия, как «слой OCR».

Скорее всего, у вас есть PDF-файл, в котором есть отсканированное изображение и текст, извлеченный из этого изображения с помощью OCR, который был нарисован как «невидимый» текст (режим рендеринга текста 3).

Как правило, вы не можете копировать и вставлять текст между PDF-файлами, поэтому очень сложно выполнить то, что вы просите. Я не знаю каких-либо инструментов, которые помогут вам в этом, я могу с уверенностью сказать, что Ghostscript абсолютно не поможет вам.

Скорее всего, вам также нужно будет скопировать шрифт (или CIDFont) из PDF-файл, и если у него есть ToUnicode CMap, вы, безусловно, также захотите, или поиск не будет работать (и в этом нет особого смысла в таком распознавании).

Поскольку у вас есть PDF файл, который содержит текст OCR, почему бы просто не использовать этот PDF? Я не вижу причин, по которым вы хотите «перенести» его в другой файл PDF.

...