Я пытаюсь извлечь текст из PDF с пользовательским форматированием.Я использую PDFBox
API.Мне нужно, чтобы столбцы с пустым полем были заполнены идентификатором (например, труба "|")
Я пытался подписаться на некоторые методы класса PDFTextStripper
, но безрезультатно.Мне не удалось определить, в какой момент удаляется пустое пространство, которое идентифицирует пустое поле в столбце.
Я использовал этот пример: https://github.com/JonathanLink/PDFLayoutTextStripper. Но то же самое форматирует только пробелы, мне нужно, чтобы поля, представляющие ячейку vzia, идентифицировались с символом "|".
private static void convertParaTexto(PDDocument document) throws IOException {
PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setSortByPosition(true);
pdfStripper.setWordSeparator("|");
String text = pdfStripper.getText(document);
document.close();
}
См. Оригинальный текст:
Результат простого извлечения (код выше):
Как и должно быть: