обрабатывать данные изображения, такие как PDF или что-то еще, используя pdfcreator - PullRequest
0 голосов
/ 07 сентября 2010

сено все. Может быть, вы, ребята, можете помочь мне в моем проекте. Я использую pdfcreator в качестве виртуального принтера для печати в файл некоторых изображений. может быть PDF может быть любого типа изображения. но мне нужно извлечь данные из него. это можно сделать? я использую C #.

1 Ответ

0 голосов
/ 10 сентября 2010

Вы не можете извлечь текст из изображений.

В принципе, вы можете извлекать текст из PDF-файлов.

Вот два метода, использующих утилиты командной строки Свободного программного обеспечения; возможно, один из них соответствует вашим потребностям:

  1. pdftotext.exe (часть XPDF-утилит Foolabs )
  2. gswin32c.exe (Artifex ' Ghostscript )

Пример командной строки для извлечения всего текста со страниц 3-7:

pdftotext:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   "d:\path\to\output.txt"

Вы хотите получить вывод текста на стандартный вывод вместо файла? ОК, попробуйте это:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   -

Ghostscript: (Убедитесь, что ваша установка имеет ps2ascii.ps в подкаталоге lib )

gswin32c.exe ^
   -q ^
   -sFONTPATH=c:/windows/fonts ^
   -dNODISPLAY ^
   -dSAFER ^
   -dDELAYBIND ^
   -dWRITESYSTEMDICT ^
   -dSIMPLE ^
   -f ps2ascii.ps ^
   -dFirstPage=3 ^
   -dLastPage=7 ^
   "c:/path/to/input.pdf" ^
   -dQUIET 

Вывод текста появится на стандартный вывод. Если вы проверите это в окне cmd.exe, вы можете перенаправить его в файл, добавив > /path/to/output.txt к команде.

...