Я использую pdfminer.six для анализа своих PDF-файлов. Вот результат, который я получаю:
Как вы можете видеть синий текст опущен. Но если я немного прокручу вывод вниз, там будет все, что мне нужно.
Вот мой код:
from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
output = StringIO()
with open("/content/1.pdf", 'rb') as in_file:
parser = PDFParser(in_file)
document = PDFDocument(parser)
rsrcmgr = PDFResourceManager()
device = TextConverter(rsrcmgr, output, codec = 'utf-8', laparams=LAParams(all_texts=True))
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
print(output.getvalue())
Что вы мне посоветуете сделать?