Я использую PDFBox для чтения этого PDF-файла с использованием Java:
PDDocument pdf = null;
try {
pdf = PDDocument.load( new File( path ) );
PDFTextStripper s = new PDFTextStripper();
String text = s.getText( pdf );
System.out.println( text );
pdf.close();
} catch (IOException ioe) {
ioe.printStackTrace();
}
Я заметил, что он печатает текст из PDF с дополнительными пробелами, как "Джереми Берн Штайн"вместо "Джереми Бернштейн".Если я копирую текст вручную из файла PDF с помощью Adobe Reader или любого другого аналогичного средства просмотра PDF, текст вставляется без пробелов.
Я попробовал параметры PDFTextStripper.setAverageCharTolerance (...) и PDFTextStripper.setSpacingTolerance(...) чтобы это исправить, но никто не сработал!
Есть идеи, что может это исправить?