ps2pdf с OCR свободный OCR - PullRequest
0 голосов
/ 26 мая 2020

Я много раз пытался конвертировать ps2pdf с OCR.

Я установил GhostScript на свой Windows10 и преобразовал PDF-файл с OCR в файл Post Script. Затем я преобразовал PDF из Post Script, чтобы получить лучший результат.

То, что произошло, было потеряно OCR.

Как преобразовать PDF-файл с оптическим распознаванием текста в файл Post Script, а затем обратно в файл Post Script в PDF с помощью OCR?

Моя команда была

pdf2ps test.pdf test.ps

Тогда

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -o test2.pdf test.ps

1 Ответ

1 голос
/ 26 мая 2020

Вы не можете достичь цели, которую пытаетесь использовать, используя Ghostscript или, скорее всего, любой другой интерпретатор PostScript.

Язык PostScript не поддерживает некоторые функции модели PDF, в этом случае он не поддерживает текст Режимы рендеринга. PDF-файл почти наверняка использует режим визуализации текста 3 для размещения «невидимого» текста на странице. (NB, это в некоторой степени предположение, поскольку вы не предоставили файл PDF для исследования)

PostScript, выдаваемый устройством ps2write, имитирует это, не отрисовывая текст. PostScript и создайте из него файл PDF, текст не рисуется, поэтому он не включается в файл PDF. В результате Tr 3 и текст отсутствуют в новом файле PDF.

Поскольку у вас изначально был файл PDF, просто не создавайте из него программу PostScript, и вы будете получите то, что хотите, PDF-файл с невидимым текстом.

...