Просто чтобы прояснить, «родной PDF» на самом деле не является термином из стандарта PDF, я видел, что некоторые люди используют его для обозначения PDF, созданного непосредственно в программном обеспечении для создания PDF-документов, поэтому у вас есть такие вещи, как текст и векторная графика в это например.
Это будет зависеть от того, что вы знаете об исходных документах PDF, которые вы получаете. Например, если вы знаете, что все нативные PDF-файлы всегда будут состоять из текста, вы можете просто извлечь текст из документа, а если найдете, рассмотрите его как нативный и в противном случае считайте его отсканированным.
Если вы знаете, что все отсканированные PDF-файлы всегда будут состоять из изображений определенного размера и определенного сжатия, вы можете проверить эти атрибуты в документе и соответствующим образом классифицировать их.
Все усложняется, если вы вообще ничего не знаете о входных данных. Вы также можете посмотреть на такие вещи, как метаданные, и найти, например, ключевые слова, которые идентифицируют одно против другого.
В конечном счете, если у вас есть некоторые ограничения на тип ввода, ожидать, что классификация довольно проста.
Хороший дополнительный вопрос: зачем вам дифференцировать документы таким образом? Если бы мы немного знали об этом, возможно, мы могли бы прокомментировать подход.