извлечь текст из PDF-файла объекта в Python - PullRequest
0 голосов
/ 11 июня 2018

можем ли мы извлечь текст из pdf-файла, собранного из запроса, например,

f = request.FILES.get('file', None)

Таким образом, из f мы можем извлечь текст документа, когда мы получаем текстовое содержимое из объекта текстового файла.

1 Ответ

0 голосов
/ 11 июня 2018

Попробуйте использовать эту библиотеку, которая называется textract

http://textract.readthedocs.io/en/latest/

Она поддерживает множество форматов, включая PDF

import textract
text = textract.process("path/to/file.extension")
...