Разбор PDF-файлов, созданных MS Reporting Services - НЕТ OCR - PullRequest
1 голос
/ 10 декабря 2010

Мне нужно проанализировать отчеты в формате PDF, созданные MS Reporting Services, и сохранить проанализированные данные в базе данных. Не спрашивай почему, это требование. : =)

Это не PDF-файлы изображений, которые необходимо распознать, так что есть ли более простой способ для анализа этих файлов? Есть ли какой-либо инструмент, бесплатный или коммерческий доступный для этой цели?

Файлы содержат заголовок отчета и таблицу с некоторыми данными. Основное внимание уделяется разбору таблицы и нескольких полей из заголовка (идентификатор клиента, имя и т. Д.).

1 Ответ

3 голосов
/ 11 декабря 2010

iText (Java) и iTextSharp (c #) могут получить необработанный текст с помощью PdfTextParser. Он даже скажет вам, где находится каждое слово и текущее графическое состояние (в основном цвет). Магистральные релизы находятся под AGPL. MPL-версии iTextSharp не имеют пакета анализатора.

ОЧЕНЬ сложно извлечь данные в виде "таблиц" ... обычно. Вы должны угадать их формат / местоположение на основе строк и текста на странице.

Есть редкие случаи помеченного контента, который фактически определяет таблицы, строки и т. Д., Но мне еще не приходилось сталкиваться с одним (который я сам не создавал).

У вас есть образец, на который мы могли бы взглянуть, чтобы мы могли дать вам более подробный ответ?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...