PDF:
У вас есть различные варианты.
pdftotext:
Загрузите XPDF утилиты . В файле .zip находятся различные утилиты командной строки. Одним из них является pdftotext(.exe)
. Он может извлечь весь текстовый контент из файла PDF с хорошим поведением. Введите pdftotext -help
, чтобы узнать о некоторых параметрах командной строки.
Ghostscript:
Установите последнюю версию Ghostscript (v.8.71). Ghostscript - это интерпретатор PostScript и PDF. Вы также можете использовать его для извлечения текста из PDF:
gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=3 ^
-dLastPage=7 ^
input.pdf ^
-dQUIET
Выводит текст, содержащийся на страницах 3-7 input.pdf
, в стандартный вывод. Вы можете перенаправить это в файл, добавив > /path/to/output.txt
к команде. (Убедитесь, что служебная программа PostScript ps2ascii.ps
присутствует в подкаталоге Ghostscript lib
.)
Если вы пропустите параметр -dSIMPLE
, при выводе текста будут угадываться разрывы строк и интервалы между словами. Подробнее смотрите в комментариях внутри самого файла ps2ascii.ps
. Вы можете даже заменить этот параметр на -dCOMPLEX
для получения дополнительной информации о форматировании текста.