slate3k ВНИМАНИЕ: pdfminer.layout: слишком много ящиков (106) для группировки, пропуск - PullRequest
0 голосов
/ 12 июля 2020

Я пытаюсь извлечь текст из PDF-файла в формате python, но получаю следующее предупреждающее сообщение, которое ограничивает объем текста для каждой извлекаемой страницы. Кто-нибудь может придумать какое-либо решение для решения этой проблемы? Код также ниже:

ПРЕДУПРЕЖДЕНИЕ: pdfminer.layout: слишком много ящиков (106) для группировки, пропуск.

import slate3k as slate

with open("mypdf.pdf",'rb') as f:
    extracted_text = slate.PDF(f)
print(extracted_text)
...