В настоящее время я работаю над извлечением текста из PDF. Моя текущая проблема заключается в различении заголовков и подзаголовков от извлеченного текста. Я работаю с iTextSharp и использую жирную текстовую информацию для определения заголовка. Размер шрифта нельзя доверять все время. также пробовал с PDFBox.
1) Я хотел бы знать, существует ли какой-либо метод для идентификации заголовков и подзаголовков из PDF.
2) Предоставляет ли редактор Adobe или pdfExchange какой-либо API для того же самого?
Например:
Мне нужно извлечь
«Туризм в 2040 году:
Привлечение дополнительного миллиона посетителей
в год в рай "в рубрике
«Резюме» в подзаголовке
Хотя это можно извлечь, используя информацию, выделенную жирным шрифтом, во многих случаях это не удалось. Вот почему ищем API.