Как получить MediaBox из PDF-страниц без разбора всего файла? - PullRequest
0 голосов
/ 02 мая 2019

Есть ли способ использовать Apache PDFBox для чтения прямоугольника MediaBox всех страниц в PDF без анализа всего файла? В настоящее время я использую следующий код, который занимает много времени для файлов размером более 1,5 ГБ.

// Can I avoid this 'load()' function which tries to parse the entire PDF
pdfDocument = PDDocument.load(pdfFile, MemoryUsageSetting.setupTempFileOnly())

// I can only use TempFile, instead of main memory, as there are restrictions to memory usage in the application.
// get the page media box
pdfDocument.getPage(1).getMediaBox()
...