извлечение заголовка и подзаголовка из PDF - PullRequest
0 голосов
/ 29 октября 2018

В настоящее время я работаю над извлечением текста из PDF. Моя текущая проблема заключается в различении заголовков и подзаголовков от извлеченного текста. Я работаю с iTextSharp и использую жирную текстовую информацию для определения заголовка. Размер шрифта нельзя доверять все время. также пробовал с PDFBox.

1) Я хотел бы знать, существует ли какой-либо метод для идентификации заголовков и подзаголовков из PDF.

2) Предоставляет ли редактор Adobe или pdfExchange какой-либо API для того же самого?

Например:

sample pdf image is given

Мне нужно извлечь

«Туризм в 2040 году: Привлечение дополнительного миллиона посетителей в год в рай "в рубрике

«Резюме» в подзаголовке

Хотя это можно извлечь, используя информацию, выделенную жирным шрифтом, во многих случаях это не удалось. Вот почему ищем API.

...