Преобразование из PDF обычно очень сложно (в лучшем случае).
PDF содержит инструкции по рисованию. «Линия отсюда туда», «эти символы в этих координатах». обычно информации о логическом значении этих линий, символов и изображений нет, хотя "Структура документа" становится все более распространенной.
Без «структуры документа» и «помеченного содержимого» очень трудно перейти от «стопки строк и символов» к «таблице с этой информацией в этих столбцах и строках».
Не невозможно, просто очень сложно.
И люди, которые работали над этой проблемой, не заинтересованы в том, чтобы делиться своим кодом бесплатно.