Question

можем ли мы извлечь текст из pdf-файла, собранного из запроса, например,

f = request.FILES.get('file', None)

Таким образом, из f мы можем извлечь текст документа, когда мы получаем текстовое содержимое из объекта текстового файла.

Tarush Nagpal · Answer 1 · 11 июня 2018

Попробуйте использовать эту библиотеку, которая называется textract

Она поддерживает множество форматов, включая PDF

import textract
text = textract.process("path/to/file.extension")

извлечь текст из PDF-файла объекта в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.