Java - есть ли у pdfBox возможность открывать файл вместо его загрузки? - PullRequest
0 голосов
/ 30 ноября 2018

Я использую PDFBox в Java, чтобы попытаться извлечь текст из файла PDF.Вот как я загружаю файл:

PDDocument document = PDDocument.load(new File(path1));

Как видите, он открывает файл и загружает содержимое внутри него.Это может вызвать проблему, когда, скажем, я пытался загрузить файл, содержащий 10 миллионов слов или текст, который огромен, и он выдает OutOfMemoryException:Java heap space.

. Я действительно проверил это, и он выдает ошибку.И виновником была линия выше.Есть ли способ открыть файл, но не загружать его содержимое в PDFBox?

Я ценю любое предложение.

1 Ответ

0 голосов
/ 30 ноября 2018

Использование:

PDDocument doc = PDDocument.load(file, MemoryUsageSetting.setupTempFileOnly());

Это позволит настроить использование буферизованной памяти для использования только временных файлов без ограниченного размера.

...