Извлечение текста с использованием pdfbox 2.0.X jars - PullRequest
0 голосов
/ 05 января 2019

У меня есть входной поток PDF-файла. Теперь я хочу извлечь все содержимое строки из inputStream. Я нашел следующие примеры. Должен ли я использовать первый или второй? Есть ли разница в производительности между этими двумя? какая польза от PDFParser во втором?

фрагмент 1:

PDDocument doc = PDDocument.load(is);

PDFTextStripper stripper = new PDFTextStripper();

String result = stripper.getText(doc);

фрагмент 2:

PDFTextStripper stripper = new PDFTextStripper();

PDFParser parser = new PDFParser(newRandomAccessBufferedFileInputStream(stream));

parser.parse();

doc = parser.getPDDocument();

String content = stripper.getText(doc);

Заранее спасибо !!!

1 Ответ

0 голосов
/ 05 января 2019

Используйте первый код. Второй код тоже будет работать, но он устарел и не отличается, синтаксический анализ вызывается в load(). Скорость такая же. Вы получите лучшие результаты, используя файл в качестве параметра или байтовый массив. Для использования потока потребуется PDFBox для дополнительной буферизации. Ваш код не сообщает, откуда взято stream; если это FileInputStream, тогда вы должны использовать File.

...