iText (Java) и iTextSharp (c #) могут получить необработанный текст с помощью PdfTextParser. Он даже скажет вам, где находится каждое слово и текущее графическое состояние (в основном цвет). Магистральные релизы находятся под AGPL. MPL-версии iTextSharp не имеют пакета анализатора.
ОЧЕНЬ сложно извлечь данные в виде "таблиц" ... обычно. Вы должны угадать их формат / местоположение на основе строк и текста на странице.
Есть редкие случаи помеченного контента, который фактически определяет таблицы, строки и т. Д., Но мне еще не приходилось сталкиваться с одним (который я сам не создавал).
У вас есть образец, на который мы могли бы взглянуть, чтобы мы могли дать вам более подробный ответ?