Как извлечь текст из PDF с Pentaho? - PullRequest
1 голос
/ 23 апреля 2019

Как я могу читать текст из файлов PDF с помощью pentaho?

Есть ли какое-либо решение, использующее только встроенные библиотеки Java?

1 Ответ

3 голосов
/ 23 апреля 2019

Просто добавьте шаг JavaScript Modified Values со следующим кодом:

var reader = new com.lowagie.text.pdf.PdfReader("c:\\temp\\mypdf.pdf") // OR JUST PUT THE COLUMN NAME IN THE FLOW;
var pdfTE = new com.lowagie.text.pdf.parser.PdfTextExtractor(reader);
var noOfPages = reader.getNumberOfPages();
var textPDF = "";
for (var i = 1; i <= noOfPages; i++) {
    textPDF += pdfTE.getTextFromPage(i);
}
...