Какой лучший способ извлечь текст из PDF в Python без изменения макета и формата? - PullRequest
0 голосов
/ 14 октября 2019

Мне нужен текст с точным форматом и макетом из pdf.
Если pdf к тексту не является прямым выбором, возможно ли сделать pdf -> xml -> text?
Я уже пробовал PyPDF2, pdfminer и pdftotxt. Даже я пытался использовать AWS textract и получил неправильный макет.
В принципе, если я могу построить предложение из текста, извлеченного из pdf, этого достаточно.
Я использовал Zamzar API, который дает точный вывод, но они довольно дороги. Любое возможное решение?

1 Ответ

0 голосов
/ 29 октября 2019

Если вы хотите сохранить структуру PDF, но не шрифт, цвет, размер и т. Д., Попробуйте библиотеку pdftables_api. Это должно содержать макет вашего PDF. Конвертировать PDF в CSV как файл CSV - это просто текстовый файл с разделителями-запятыми.

Если вы хотите сохранить шрифт, цвет и т. Д., Zamzar API, вероятно, ваш лучший вариант.

...