вы можете использовать pythons, pdfminer для преобразования вашего pdf в txt, это будет лучше, чем tesseract с точки зрения памяти, он принимает все текстовые данные, но теряет форматирование, затем вы можете конвертировать этот текстовый файл в Docx, используя python -Docx
from docx import Document
import re
import os
path = 'your path'
direct = os.listdir(path)
for i in direct:
document = Document()
document.add_heading(i, 0)
myfile = open('/path/to/read/from/'+i).read()
myfile = re.sub(r'[^\x00-\x7F]+|\x0c',' ', myfile) # remove all non-XML-compatible
characters
p = document.add_paragraph(myfile)
document.save('/path/to/write/to/'+i+'.docx')
или, может быть, вы можете преобразовать документ в XML и прочитать его таким образом, вы, вероятно, сможете сохранить форматирование, сравнив размеры шрифта,
GroupDocs.Conversion Облако предлагает Python SDK для преобразования текста / PDF в DOC / DOCX и многие другие распространенные форматы файлов из одного формата в другой, независимо от какого-либо стороннего инструмента или программного обеспечения.