Как проверить, что PDF является текстовым, используя ITextSharp? - PullRequest
2 голосов
/ 11 июня 2011

Мне нужно убедиться, что отчет в формате PDF основан на тексте (а не на растровом изображении; однако он может содержать некоторые изображения). Мне не нужно извлекать текст, просто чтобы убедиться, что он основан на тексте.

Есть ли способ, как выполнить такую ​​проверку с помощью библиотеки ITextSharp?

Заранее спасибо,

Stefan

1 Ответ

1 голос
/ 13 июня 2011

Вы можете легко найти команды рисования текста. Наименьшей работой с вашей стороны будет попытка извлечь текст и посмотреть, есть ли что-нибудь там. В идеале вы должны знать часть текста, который он должен содержать, и искать его. Для такого тестирования достаточно одного предложения или фразы.

Извлечение текста с помощью iText в наши дни довольно тривиально. Множество примеров, плавающих вокруг SO и Интернета.

...