Вывести содержимое PDF в командную строку - PullRequest
5 голосов
/ 11 октября 2011

Я ищу программу командной строки, которая будет печатать текст файла PDF, как cat для текстового файла.Я уверен, что такая вещь существует, потому что я помню, как использовал ее несколько месяцев назад.Я мог бы поклясться, что это было pdfcat, но это всего лишь утилита слияния.Я нашел pdftotxt, и это было бы работоспособно, но я бы предпочел что-то, что повторяет функциональность cat, потому что я хочу передать grep.Спасибо!

Ответы [ 2 ]

16 голосов
/ 11 октября 2011

на страницах руководства для pdftotext, я нашел это:

pdftotext [параметры] [PDF-файл [текстовый файл]]

Описание Pdftotext преобразует файлы в формате Portable Document Format (PDF) в обычный текст.

Pdftotext читает файл PDF, PDF-файл и записывает текстовый файл text-file. Если текстовый файл не указан, pdftotext преобразует файл file.pdf в файл file.txt. Если текстовый файл '-', текст отправляется на стандартный вывод.

Так что, если ваша цель - выводить на стандартный вывод, чтобы передать в grep, pdftotext mydoc.pdf - должен работать так же, как cat mytext.txt, и, следовательно, pdftotext mydoc.pdf - | grep mysearchterm

0 голосов
/ 14 июля 2018

Может быть, вы можете попробовать это: https://github.com/luochen1990/nodejs-easy-pdf-parser

Это пакет npm, и вам нужно установить nodejs (и npm), чтобы использовать его.

Он может использоваться как командаИнструмент линии:

npm install -g easy-pdf-parser
pdf2text test.pdf > test.txt

И этот инструмент будет сортировать текстовые строки по их координатам y, поэтому он отлично работает в большинстве случаев.И это также хорошо работает с юникодом и кроссплатформенностью (для сравнения: mingw64 pdftotext потеряет символы юникода на окнах).

...