Обрезать и извлекать текст из PDF - PullRequest
2 голосов
/ 01 июня 2011

Я обрезал PDF, используя следующую команду.

gswin32c.exe ^
-o cropped.pdf ^
-sDEVICE=pdfwrite ^
-c "[/CropBox [64 418 348 803] /PAGE pdfmark" ^
-f original.pdf

PDF обрезается.Я использовал следующую команду для извлечения текста из обрезанного PDF.

gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=1 ^
-dLastPage=1 ^
cropped.pdf ^
-> c:\output.txt ^
-dQUIET 

Вывод содержит текст исходного PDF, а не обрезанный PDF.

Может ли кто-нибудь помочь извлечьтекст только из обрезанного PDF.

Спасибо Nazeer

Ответы [ 2 ]

2 голосов
/ 02 июня 2011

Полученный вами результат - именно то, что и следовало ожидать.

  • Обрезка страницы PDF означает НЕ означает: обрежьте все вокруг обрезанной области и удалите ее.

  • Обрезка означает: отображать только то, что находится внутри области обрезки (и увеличивать ее), и скрывать то, что находится вокруг нее.

Поэтому, когда вы конвертируете такую ​​страницу в текст, вы также получаете скрытый контент обратно.

0 голосов
/ 02 июня 2011

Возможно, вам повезет больше, если вы попробуете другие способы конвертировать cropped.pdf в текст:

Откройте его в Acrobat / Adobe Reader.

Нажмите «Файл -> Сохранить как текст ...»

...