Вы не можете извлечь текст из изображений.
В принципе, вы можете извлекать текст из PDF-файлов.
Вот два метода, использующих утилиты командной строки Свободного программного обеспечения; возможно, один из них соответствует вашим потребностям:
pdftotext.exe
(часть XPDF-утилит Foolabs )
gswin32c.exe
(Artifex ' Ghostscript )
Пример командной строки для извлечения всего текста со страниц 3-7:
pdftotext:
pdftotext.exe ^
-f 3 ^
-l 7 ^
-epl dos ^
-layout ^
"d:\path with spaces\to\input.pdf" ^
"d:\path\to\output.txt"
Вы хотите получить вывод текста на стандартный вывод вместо файла? ОК, попробуйте это:
pdftotext.exe ^
-f 3 ^
-l 7 ^
-epl dos ^
-layout ^
"d:\path with spaces\to\input.pdf" ^
-
Ghostscript:
(Убедитесь, что ваша установка имеет ps2ascii.ps
в подкаталоге lib )
gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=3 ^
-dLastPage=7 ^
"c:/path/to/input.pdf" ^
-dQUIET
Вывод текста появится на стандартный вывод. Если вы проверите это в окне cmd.exe, вы можете перенаправить его в файл, добавив > /path/to/output.txt
к команде.