Я использую pdfminer для преобразования текста в pdfs в текст. В настоящее время я использую этот код:
# -*- coding: utf-8 -*-
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import BytesIO
import re
import os
import os.path
import glob
from collections import Counter
def pdf_to_text(path):
manager = PDFResourceManager()
retstr = BytesIO()
layout = LAParams(all_texts=True)
device = TextConverter(manager, retstr, laparams=layout)
filepath = open(path, 'rb')
interpreter = PDFPageInterpreter(manager, device)
for page in PDFPage.get_pages(filepath, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
filepath.close()
device.close()
retstr.close()
return text
if __name__ == "__main__":
path = 'C:/folder/document.pdf'
text = str(pdf_to_text(path))
print(text)
Мне нужно, чтобы номера страниц также были вставлены в текст. Т.е. вставьте новые строки с номером страницы в текст для всех страниц. Я несколько дней чесал голову, пытаясь понять, как заставить это работать, кто-нибудь может помочь?