Я должен извлечь текст из существующих документов PDF.В настоящее время я использую модуль PyMuPDF для этого.В целом работает отлично и очень быстро.Проблема в том, что этот инструмент заменяет все горизонтальные вкладки из PDF-документов (например, в заголовках: 5 \t
Тема) новым переводом строки.Поскольку мне приходится извлекать текст построчно, это очень непрактично для меня.
Кто-нибудь знает, как решить эту проблему или знает другой метод извлечения текстовой страницы на страницу и построчно?Я также попробовал tika (здесь я не могу извлечь текст постранично) и PyPDF2 (это ужасно: для любого форматированного текста (например, написанного жирным шрифтом) он вставляет новую строку в извлеченный текст.
for document in pdfPath:
string_dic[document] = StringIO()
pdf_file = fitz.open(document)
number_of_pages = pdf_file.pageCount
for page_number in range(number_of_pages):
page = pdf_file.loadPage(page_number)
page_content = page.getText("text")
string_dic[document].write(page_content)
string_dic[document].write(chr(12))
string_dic[document].seek(0)
Когда я преобразовываю документ PDF со следующим содержанием:
5 \t
текст после вкладки
Я получаю следующий результат после извлечения:
5
текст после вкладки