Я читаю файл PDF, используя PDFBox.файл выглядит примерно так:
HEADER1
1. Position
1.1. Position.
1.2. Scope
1.3. Location.
2. Compensation
2.1. Schedule
2.2.
3. Term
HEADER2
1. Term.
1.1. Position.
заголовки характерны тем, что выровнены по центру страницы, и в основном находятся в начале страницы, а иногда и с подчеркиванием.
Я видел несколько вопросов о том, как найти строчный шрифт, например:
Получить шрифт каждой строки, используя PDFBox
, предлагая переопределить PDFTextStripper
изамените метод writeString
для извлечения шрифта, но я не знаю, имеет ли шрифт выравнивание текста или подчеркивание.
Я надеюсь, что я не первый, кто ищет заголовки вPDF и есть чистый способ извлечь его.
если вообще нет способа получить выравнивание и погоду линии, у которой есть подчеркивание?
мне использовать другой пакет?