Я ищу способ разбора PDF-документа на основе их визуальной структуры .
![Example PDF page](https://i.stack.imgur.com/5Rkz4.png)
Пример PDF Я пытаюсь разобрать. Основываясь на этом документе PDF, я хочу разобрать структуру документа следующим образом.
![Parsed content](https://i.stack.imgur.com/wI0oh.png)
Поскольку целевой PDF генерируется из различных инструментов, я не мог ожидать, что мои PDF-файлы будут иметь определенные метаданные, поэтому я думаю Я должен подходить к этой проблеме исключительно на основе обработки изображений . По сути, мне нужен своего рода YACC-подобный генератор парсера для изображений. Некоторый генератор синтаксических анализаторов, который может генерировать анализатор изображений из EBNF-подобной грамматики.
document := section*
section := header problem+
header := [Something that looks like an header image]
problem := [Anything] [Vertical bar] description
description := answer [Anything]
answer := [Something that looks like an answer image]
Ср) Мне не нужно никакого распознавания. Я могу извлечь весь нужный мне текст из самого PDF. Мне просто нужен способ отделить структуру PDF от их визуальных элементов.
- Как называется моя проблема? Обычно термин анализ изображения означает анализ пикселей PNG или JPEG, а не анализ внутреннего содержимого изображения.
- Какие библиотеки или программы я могу использовать для решения своей проблемы?
Примечание. Я пока не знаю, как лучше выразить свой вопрос. Извините за плохой заголовок.