Python pdfminer - неправильный макет - PullRequest
0 голосов
/ 26 мая 2020

Я использую pdfminer.six для анализа своих PDF-файлов. Вот результат, который я получаю:

From

To

Как вы можете видеть синий текст опущен. Но если я немного прокручу вывод вниз, там будет все, что мне нужно.

enter image description here

Вот мой код:

from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser

output = StringIO()
with open("/content/1.pdf", 'rb') as in_file:
    parser = PDFParser(in_file)
    document = PDFDocument(parser)
    rsrcmgr = PDFResourceManager()
    device = TextConverter(rsrcmgr, output, codec = 'utf-8', laparams=LAParams(all_texts=True))
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    for page in PDFPage.create_pages(document):
        interpreter.process_page(page)

print(output.getvalue())

Что вы мне посоветуете сделать?

...