Java - PDF-файл - найти заголовки - PullRequest
0 голосов
/ 31 января 2019

Я читаю файл PDF, используя PDFBox.файл выглядит примерно так:

                      HEADER1
1. Position
1.1. Position.
1.2. Scope
1.3. Location. 
2. Compensation
2.1. Schedule
2.2. 
3. Term
                      HEADER2
1. Term.
1.1. Position.

заголовки характерны тем, что выровнены по центру страницы, и в основном находятся в начале страницы, а иногда и с подчеркиванием.

Я видел несколько вопросов о том, как найти строчный шрифт, например:

Получить шрифт каждой строки, используя PDFBox

, предлагая переопределить PDFTextStripper изамените метод writeString для извлечения шрифта, но я не знаю, имеет ли шрифт выравнивание текста или подчеркивание.

Я надеюсь, что я не первый, кто ищет заголовки вPDF и есть чистый способ извлечь его.

если вообще нет способа получить выравнивание и погоду линии, у которой есть подчеркивание?

мне использовать другой пакет?

...