Это гигантские хлопоты. В целом, извлечение текстового содержимого файла PDF выполняется в русле того, что PDF хочет от вас.
Начните с попытки вывести текст. Это может быть более или менее успешным, в зависимости от того, как построен PDF. Для начала нужно использовать GhostScript или pstotext . Если вам это не удастся, у этого парня есть список инструментов для извлечения текста . Получив текстовый поток, вы можете попытаться программно собрать табличную структуру.
Наконец, если у вас серьёзные проблемы, и если PDF-файлы не взаимодействуют, вы можете сделать OCR. Правильное долгосрочное решение состоит в том, чтобы с самого начала получить данные в правильном формате, выполнив один массивный, болезненный и, возможно, частично ручной процесс; или перейти к источнику и предложить предоставить данные в более удобной форме.
Если вы можете дать более конкретный пример файла PDF, возможно, будет лучший или более точный ответ ... НЕТ общего решения, если это возможно, его нужно будет адаптировать к вашим конкретным исходные данные.
Обратите внимание, что довольно резкий ответ на общий вопрос ... не помогает с тем фактом, что у вас есть проблема перед вами, но, возможно, это даст полезную верхнюю крышку при объяснении вашему боссу почему нет очевидного ответа? ; -)
Появился новый вопрос SO, связанный с этой библиотекой - iTextSharp - который выглядит, возможно, связанным. ТАК вопрос: Лучший способ извлечь ...