Звучит сложно для меня. Существует множество различных идентификаторов «производителей», многие из которых поддерживают создание PDF-файлов из любого источника, будь то сканирование, отправка по факсу, текстовый процессор или еще много чего. Существует так много способов создать PDF-файл, что вы никогда не сможете отследить, откуда он пришел.
Если вы хотите определить, можете ли вы отображать его как текст или нет, почему бы не попытаться извлечь из него какой-то фактический текст? Если он отсканирован (или любой другой вид встроенного изображения), у него не должно быть текстового содержимого или оно будет очень небольшим. Но кроме того, есть программы OCR, которые создают отсканированный PDF, который также содержит машиночитаемый текст. Как вы хотите справиться с этим?
Какова ваша конечная цель с этим?