pdftotext
похоже, что требуется только имя файла pdf или путь к нему.Документы не очень полезны (https://www.cyberciti.biz/faq/converter-pdf-files-to-text-format-command/) (https://linux.die.net/man/1/pdftotext)
Есть ли способ отправить двоичное содержимое непосредственно в это?
Давайтескажем, я получаю URL, который напрямую ссылается на PDF. Я получаю ответ этого URL с помощью запросов Python,
response = requests.get(somePdfUrl)
Я беру двоичный файл,
pdfBinary = response.content
И яхочу иметь возможность отправить его в эту функцию и запустить его, используя subprocess
, но обычно это будет выглядеть так:
def textExtract(pdfBinary):
text = subprocess.run(['pdftotext', '/path/to/file.pdf'],
stdout=PIPE, stderr=PIPE)
Это может быть невозможно и ограничено пакетом, но есть способ как-товставить pdfBinary в этот метод? Мне не нужно каждый раз сохранять файл pdf, а затем вставлять его в подпроцесс.