Преобразование отсканированного PDF или PDF с возможностью поиска в tessaract в docx / do c и поддержка всех форматов и макетов с использованием python - PullRequest
0 голосов
/ 20 января 2020

Необходимо преобразовать отсканированный PDF в документ DOCX. Подход, который я использовал до сих пор 1. Преобразование отсканированного PDF в PDF с возможностью поиска с использованием pytessaract pytesseract.image_to_pdf_or_hocr () 2. Затем преобразование этого PDF с возможностью поиска в docx с использованием низкоуровневого 'lowriter - -invisible --convert-to docx "{}"

Но это приводит к проблеме форматирования и компоновки в docx / do c, и в результирующем файле docx происходит наложение текста и изображения. Пожалуйста, помогите

1 Ответ

0 голосов
/ 20 января 2020

вы можете использовать pythons, pdfminer для преобразования вашего pdf в txt, это будет лучше, чем tesseract с точки зрения памяти, он принимает все текстовые данные, но теряет форматирование, затем вы можете конвертировать этот текстовый файл в Docx, используя python -Docx

from docx import Document
import re
import os

path = 'your path'
direct = os.listdir(path)

for i in direct:
    document = Document()
    document.add_heading(i, 0)
    myfile = open('/path/to/read/from/'+i).read()
    myfile = re.sub(r'[^\x00-\x7F]+|\x0c',' ', myfile) # remove all non-XML-compatible 
  characters
    p = document.add_paragraph(myfile)
    document.save('/path/to/write/to/'+i+'.docx')

или, может быть, вы можете преобразовать документ в XML и прочитать его таким образом, вы, вероятно, сможете сохранить форматирование, сравнив размеры шрифта,

GroupDocs.Conversion Облако предлагает Python SDK для преобразования текста / PDF в DOC / DOCX и многие другие распространенные форматы файлов из одного формата в другой, независимо от какого-либо стороннего инструмента или программного обеспечения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...