Ну, я думаю, что PDF должен содержать информацию для их размещения, так что это должно быть возможно.С другой стороны, решение может быть, например:
- Конвертировать каждую страницу PDF в изображение с помощью
pdftoppm
- Извлечь изображения с каждой страницы с помощью
pdfimages
- Преобразование изображений в один 8-битный канал серой шкалы (для более быстрого анализа) с
cvCvtColor
- Обнаружение объектас
matchTemplate
Шаг 1 может выглядеть примерно так: Шаг 10:
for i in {0..99} ; do pdfimages -f $((i)) -l $((i+1)) file.pdf page$((i)); done
Шаг 3 здесь * простой примерНа шаге 4 у вас не должно быть проблем с тренировкой, потому что изображение будет точно соответствовать.matchTemplate( imageToSearch, pdfPageImg, outputMap, 'CV_TM_SQDIFF')
(* - ссылка удалена, поскольку теперь она указывает на сайт с вымогателями)