Все PDF-файлы могут иметь эту проблему независимо от их источника. Большинство настольных издательских комплектов способны выводить PDF и часто продаются с их высококачественными и яркими презентациями PDF ...
"Более разумный" метод - использовать анализатор PDF, ITextSharp или pdfNet ... и т. Д. Используя выбранную библиотеку, найдите все прямоугольники изображений и все текстовые прямоугольники, СОРТИРУЙТЕ прямоугольники, а затем посмотрите, происходит существенное наложение текста и изображений - игнорируется наложение изображений на изображения. Если это так, отклоните страницу и / или документ.
Это не будет идеально, но, по крайней мере, он поймает много PDF-файлов, которые не являются нормальными, независимо от источника. Другая эвристика для добавления будет включать в себя анализ цвета. (т. е. достаточно ли разные цвета в перекрывающейся области, чтобы обеспечить "нормальные" результаты?)
Удачи тебе