Извлечение текста из PDF-страницы за страницей и построчно с PyMuPDF - PullRequest
0 голосов
/ 03 мая 2019

Я должен извлечь текст из существующих документов PDF.В настоящее время я использую модуль PyMuPDF для этого.В целом работает отлично и очень быстро.Проблема в том, что этот инструмент заменяет все горизонтальные вкладки из PDF-документов (например, в заголовках: 5 \t Тема) новым переводом строки.Поскольку мне приходится извлекать текст построчно, это очень непрактично для меня.

Кто-нибудь знает, как решить эту проблему или знает другой метод извлечения текстовой страницы на страницу и построчно?Я также попробовал tika (здесь я не могу извлечь текст постранично) и PyPDF2 (это ужасно: для любого форматированного текста (например, написанного жирным шрифтом) он вставляет новую строку в извлеченный текст.

for document in pdfPath:
    string_dic[document] = StringIO()
    pdf_file = fitz.open(document)
    number_of_pages = pdf_file.pageCount
    for page_number in range(number_of_pages):
        page = pdf_file.loadPage(page_number)
        page_content = page.getText("text")
        string_dic[document].write(page_content)
        string_dic[document].write(chr(12))
    string_dic[document].seek(0)

Когда я преобразовываю документ PDF со следующим содержанием:
5 \t текст после вкладки
Я получаю следующий результат после извлечения:
5
текст после вкладки

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...