Преобразование табличных данных PDF в Excel, используя Java - PullRequest
0 голосов
/ 10 мая 2018

Я хочу преобразовать мой файл в формате PDF в файл CSV.

Это код, который я написал, но я получаю только имя из 5 столбцов, а не их значение.

код -

public static ArrayList<String[]> readParaFromPDF(String pdfPath, int pageNoStart, int pageNoEnd, int noOfColumnsInTable) {
    ArrayList<String[]> objArrayList = new ArrayList<>();
    try {
        PDDocument document = PDDocument.load(new File(pdfPath));
        document.getClass();
        if (!document.isEncrypted()) {
            PDFTextStripperByArea stripper = new PDFTextStripperByArea();
            stripper.setSortByPosition(true);
            PDFTextStripper tStripper = new PDFTextStripper();
            tStripper.setStartPage(pageNoStart);

            tStripper.setEndPage(pageNoEnd);
            String pdfFileInText = tStripper.getText(document);
            // split by whitespace
            String Documentlines[] = pdfFileInText.split("\\r?\\n");
            for (String line : Documentlines) {
                String lineArr[] = line.split("\\s+");
                if (lineArr.length == noOfColumnsInTable) {
                    for (String linedata : lineArr) {
                        System.out.print(linedata + " ");
                    }
                    System.out.println("");
                    objArrayList.add(lineArr);
                }
            }
        }
    } catch (Exception e) {
        System.out.println("Exception " + e);
    }
    return objArrayList;
}
...