Как конвертировать конкретно нет.страниц из файла .pdf в изображение .png с помощью imagemagick - PullRequest
2 голосов
/ 30 сентября 2010

Я использую Imagemagick для преобразования моего файла .pdf в .png images

, но когда я запускаю команду

$ convert sample.pdf image.png

, тогдаон преобразует все страницы файла sample.pdf в изображения .png, но именно я хочу

преобразовать конкретное число.страниц (например, первые 10 страниц или страницы № 22 или 12 и т. д.)

, затем, пожалуйста, предложите мне способ решения этой проблемы.

и еще один вопрос заключается в том, что:

когда мы просматриваем наши файлы .pdf в google docs .pdf viewer, они также отображаются в формате изображения

, но мы можем выделить и скопировать текст, написанный на страницах, в буфер обмена (просто выделите текст и нажмите

Ctrl + c)

, чтобы я мог реализовать это, чтобы пользователи моего веб-сайта могли выбирать текст из моих изображений.

(тамуже обсуждается это на stackoverflow , но они не очень понятны)

Ответы [ 2 ]

6 голосов
/ 30 сентября 2010
for i in {0..9} 11 21
do
    convert "sample.pdf[$i]" "image_$i".png
done
3 голосов
/ 30 сентября 2010

Ответ Бенуа - это то, что вы искали для нарезки и преобразования PDF в изображения.

В качестве альтернативы вы можете использовать pdftk с операцией cat.Это даст вам первые 10 страниц и сгенерирует, например, новый нарезанный PDF.

pdftk YOUR.PDF cat 1-10 output SLICED.PDF

Относительно вашего второго вопроса о преобразовании графического PDF в PDF с текстовыми данными единственным способомэто использование инструмента OCR, например, Tesseract.

Единственная проблема заключается в том, что эти инструменты OCR не всегда такие точные.Другими словами, иногда они не всегда могут выводить то, что вы читаете на этом изображении.

...