Преобразование PDF в текст без потери форматирования - PullRequest
1 голос
/ 06 ноября 2019

Я хочу конвертировать множество файлов PDF в текстовые файлы . Я пробовал два разных способа с кодом Python. Они работают, но их файлы очень плохо отформатированы, и я не могу использовать их позже.

Я получаю отличный результат с отличным форматированием, когда я использую опцию «экспортировать как .txt» в Adobe Acrobat Reader . Есть ли способ использовать функцию Adobe Reader в программе Python или «копировать» способ, которым Acrobat конвертирует PDF?

Два результата с субоптимальным форматированием получены из PDFMiner и PyPDF2.

...