Вам нужен способ дифференциации изображений, найденных в PDF, чтобы извлечь интересующие вас изображения.
Я полагаю, у вас есть варианты рассмотрения:
- Характеристики изображения, такие как ширина, высота, биты на компонент, ColorSpace
- Метаданные об изображении (например, интересующий тег XMP)
- Распознавание лица человека на фотографии или Форма распознавания структуры самого удостоверения личности.
- Извлечение всех изображений, а затем использование некоторого кода обработки изображений для анализа изображений с целью выявления тех, которые представляют интерес.
Я думаю, что 2) может быть самым надежным методом, если автор PDF включил такую информацию в удостоверения личности с фотографией. 3) может быть сложно реализовать и получить надежный результат из последовательно. 1) будет работать только в том случае, если это является надежным средством идентификации таких идентификаторов фотографий для ваших документов PDF.
Тогда вы можете отключить эту информацию, используя инструмент извлечения (если он позволяет вам это сделать). В противном случае вам потребуется написать собственный инструмент извлечения с использованием библиотеки PDF.