Проблема при разборе pdf заключается не в выводе, а в процессе анализа страницы. Поэтому, если вы проанализируете страницу, вы можете вывести результаты в любом формате, который вам нужен (это должно быть легко). Я бы предложил прочитать исходный код pdfminer ведьмы, я думаю, является наиболее изощренным, так что вы можете начать с того, как начать, и вы можете разобрать pdf. Что касается глубокого изучения, я думаю, что это будет сложно сделать, но да, у него есть приложение, как самая трудная проблема с файлами pdf это управление ориентацией текста, межстрочными интервалами, вертикальными или боковыми полями, полями слов и т. д. c. Удачи, если вы начинаете проект и всегда помните, что PDF - это зло.