Вы можете проверить, есть ли в PDF какие-либо ресурсы шрифтов (довольно хороший показатель того, содержит ли документ какие-либо шрифты), используя функцию HasFontResources в Quick PDF Library Lite - бесплатный ActiveX компонент, который теоретически можно использовать из Java с помощью стороннего дополнения.
Проверка ресурсов текста / шрифта является наиболее точным методом определения того, возможно ли, что PDF был сгенерирован в процессе сканирования. Это в сочетании с предложением Марка Стивенса о поиске изображения большого размера и т. Д.
Но, к сожалению, не существует 100% гарантированного точного метода проверки того, был ли отсканирован PDF.