Question

Я использую pdfminer.six для анализа своих PDF-файлов. Вот результат, который я получаю:

Как вы можете видеть синий текст опущен. Но если я немного прокручу вывод вниз, там будет все, что мне нужно.

Вот мой код:

from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser

output = StringIO()
with open("/content/1.pdf", 'rb') as in_file:
    parser = PDFParser(in_file)
    document = PDFDocument(parser)
    rsrcmgr = PDFResourceManager()
    device = TextConverter(rsrcmgr, output, codec = 'utf-8', laparams=LAParams(all_texts=True))
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    for page in PDFPage.create_pages(document):
        interpreter.process_page(page)

print(output.getvalue())

Что вы мне посоветуете сделать?

Python pdfminer - неправильный макет

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Python pdfminer - неправильный макет

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы