невозможно прочитать документ PDF с помощью веб-драйвера Selen - PullRequest
0 голосов
/ 12 апреля 2020

Я пишу код для чтения PDF-файла в селене, используя Java PDF Library. Я написал свой код как

    URL url = new URL(str);
    InputStream is=url.openStream();
    BufferedInputStream fileParse=new BufferedInputStream(is);
    PDDocument document=null;
    document=PDDocument.load(fileParse);
    String pdfContent=new PDFTextStripper().getText(document);

Но я получаю сообщение об ошибке в строке document = PDDocument.load (fileParse) вместе с

    java.io.IOException: Error: End-of-File, expected line
    at org.apache.pdfbox.pdfparser.BaseParser.readLine(BaseParser.java:1119)
    at org.apache.pdfbox.pdfparser.COSParser.parseHeader(COSParser.java:2017)
    at org.apache.pdfbox.pdfparser.COSParser.parsePDFHeader(COSParser.java:1988)
    at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:269)
    at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1143)
    at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1040)

Мне нужно проверить содержимое файла PDF , Ценю помощь. Спасибо

1 Ответ

0 голосов
/ 12 апреля 2020

Просто вы можете использовать ниже строку кода и его работу:

//Loading an existing document
 File file = new File("yourPdfFilepath");
 PDDocument document = PDDocument.load(file);
 //Instantiate PDFTextStripper class
 PDFTextStripper pdfStripper = new PDFTextStripper();
 //Retrieving text from PDF document
 String pdfcontent = pdfStripper.getText(document);

Я надеюсь, что это поможет вам

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...