PDFBox читает данные PDF с лишними пробелами - PullRequest
0 голосов
/ 19 марта 2019

Я использую PDFBox для чтения этого PDF-файла с использованием Java:

PDDocument pdf = null;
try {
    pdf = PDDocument.load( new File( path ) );
    PDFTextStripper s = new PDFTextStripper();
    String text = s.getText( pdf );
    System.out.println( text );
    pdf.close();
} catch (IOException ioe) {
    ioe.printStackTrace();
}

Я заметил, что он печатает текст из PDF с дополнительными пробелами, как "Джереми Берн Штайн"вместо "Джереми Бернштейн".Если я копирую текст вручную из файла PDF с помощью Adobe Reader или любого другого аналогичного средства просмотра PDF, текст вставляется без пробелов.

Я попробовал параметры PDFTextStripper.setAverageCharTolerance (...) и PDFTextStripper.setSpacingTolerance(...) чтобы это исправить, но никто не сработал!

Есть идеи, что может это исправить?

...