Есть ли способ для pdftotext (linux poppler-utils) взять бинарный файл вместо pdf-файла? - PullRequest
0 голосов
/ 22 сентября 2019

pdftotext похоже, что требуется только имя файла pdf или путь к нему.Документы не очень полезны (https://www.cyberciti.biz/faq/converter-pdf-files-to-text-format-command/) (https://linux.die.net/man/1/pdftotext)

Есть ли способ отправить двоичное содержимое непосредственно в это?

Давайтескажем, я получаю URL, который напрямую ссылается на PDF. Я получаю ответ этого URL с помощью запросов Python,

response = requests.get(somePdfUrl)

Я беру двоичный файл,

pdfBinary = response.content

И яхочу иметь возможность отправить его в эту функцию и запустить его, используя subprocess, но обычно это будет выглядеть так:

def textExtract(pdfBinary):
    text = subprocess.run(['pdftotext', '/path/to/file.pdf'],
                            stdout=PIPE, stderr=PIPE) 

Это может быть невозможно и ограничено пакетом, но есть способ как-товставить pdfBinary в этот метод? Мне не нужно каждый раз сохранять файл pdf, а затем вставлять его в подпроцесс.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...