Как извлечь только удостоверение личности фото из резюме с pdfimages - PullRequest
0 голосов
/ 11 сентября 2018

Привет! Я попытался использовать pdfimages для извлечения идентификационных изображений из моих файлов резюме pdf. Однако для некоторых файлов они возвращают также значок, строки таблицы, изображения границ, которые совершенно не имеют значения. Могу ли я в любом случае ограничить его только извлечением фотографии человека? Я думаю, если мы можем определить определенные ограничения размера на выходе?

1 Ответ

0 голосов
/ 11 сентября 2018

Вам нужен способ дифференциации изображений, найденных в PDF, чтобы извлечь интересующие вас изображения.

Я полагаю, у вас есть варианты рассмотрения:

  1. Характеристики изображения, такие как ширина, высота, биты на компонент, ColorSpace
  2. Метаданные об изображении (например, интересующий тег XMP)
  3. Распознавание лица человека на фотографии или Форма распознавания структуры самого удостоверения личности.
  4. Извлечение всех изображений, а затем использование некоторого кода обработки изображений для анализа изображений с целью выявления тех, которые представляют интерес.

Я думаю, что 2) может быть самым надежным методом, если автор PDF включил такую ​​информацию в удостоверения личности с фотографией. 3) может быть сложно реализовать и получить надежный результат из последовательно. 1) будет работать только в том случае, если это является надежным средством идентификации таких идентификаторов фотографий для ваших документов PDF.

Тогда вы можете отключить эту информацию, используя инструмент извлечения (если он позволяет вам это сделать). В противном случае вам потребуется написать собственный инструмент извлечения с использованием библиотеки PDF.

...