Конвертируйте pdf в текст с помощью pdfminer и вставляя номер страницы в текст - PullRequest
0 голосов
/ 26 апреля 2019

Я использую pdfminer для преобразования текста в pdfs в текст. В настоящее время я использую этот код:

# -*- coding: utf-8 -*-
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import BytesIO
import re
import os
import os.path
import glob
from collections import Counter

def pdf_to_text(path):
    manager = PDFResourceManager()
    retstr = BytesIO()
    layout = LAParams(all_texts=True)
    device = TextConverter(manager, retstr, laparams=layout)
    filepath = open(path, 'rb')
    interpreter = PDFPageInterpreter(manager, device)
    for page in PDFPage.get_pages(filepath, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    filepath.close()
    device.close()
    retstr.close()
    return text


if __name__ == "__main__":
    path = 'C:/folder/document.pdf'
    text = str(pdf_to_text(path)) 
    print(text)

Мне нужно, чтобы номера страниц также были вставлены в текст. Т.е. вставьте новые строки с номером страницы в текст для всех страниц. Я несколько дней чесал голову, пытаясь понять, как заставить это работать, кто-нибудь может помочь?

...