Как извлечь изображения из PDF с использованием Java (без использования PDF) - PullRequest
6 голосов
/ 30 ноября 2010

Я изучаю, как извлечь изображения из большого (> 300 МБ) файла PDF. Я использую pdfbox, но по какой-то конкретной причине, которую я не могу понять, некоторые страницы извлечены неправильно.

Я использую класс PDFToImage pdfbox в качестве основы для моего кода.

Итак, вы знаете другую библиотеку, которая может помочь мне сделать это? Я знаю, что можно использовать iText, но я читал, что его нельзя использовать для коммерческих продуктов.

Я установил пакеты xpdf и xpdf-utils, и утилита pdfimages работает отлично. Но мне нужно решить эту проблему с Java, и она должна быть переносимой.

Ответы [ 3 ]

5 голосов
/ 30 ноября 2010

Я думаю, что вы говорите о двух разных вещах: извлечение изображений из PDF и преобразование страниц PDF в изображения. PDFToImage будет выводить изображение для каждой страницы, в то время как pdfimages извлекает все внедренные изображения (например, текстовый документ содержит 0 изображений).

Взгляните на org.apache.pdfbox.ExtractImages, чтобы увидеть, делает ли он то, что вы хотите.

0 голосов
/ 30 ноября 2010

Вы пробовали icepdf или JPedal (оба на чистой Java)?

0 голосов
/ 30 ноября 2010

Наиболее вероятная причина, по которой трудно работать с 300 МБ PDF, заключается в том, что вам не хватает памяти.Если он работает хорошо для небольших PDF-файлов, я бы поближе посмотрел, почему он не работает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...