Способ отделения структуры содержимого PDF от их визуальных элементов - PullRequest
0 голосов
/ 06 сентября 2018

Я ищу способ разбора PDF-документа на основе их визуальной структуры .

Example PDF page

Пример PDF Я пытаюсь разобрать. Основываясь на этом документе PDF, я хочу разобрать структуру документа следующим образом.

Parsed content

Поскольку целевой PDF генерируется из различных инструментов, я не мог ожидать, что мои PDF-файлы будут иметь определенные метаданные, поэтому я думаю Я должен подходить к этой проблеме исключительно на основе обработки изображений . По сути, мне нужен своего рода YACC-подобный генератор парсера для изображений. Некоторый генератор синтаксических анализаторов, который может генерировать анализатор изображений из EBNF-подобной грамматики.

document := section*
section := header problem+
header := [Something that looks like an header image]
problem := [Anything] [Vertical bar] description
description := answer [Anything]
answer := [Something that looks like an answer image]

Ср) Мне не нужно никакого распознавания. Я могу извлечь весь нужный мне текст из самого PDF. Мне просто нужен способ отделить структуру PDF от их визуальных элементов.

  1. Как называется моя проблема? Обычно термин анализ изображения означает анализ пикселей PNG или JPEG, а не анализ внутреннего содержимого изображения.
  2. Какие библиотеки или программы я могу использовать для решения своей проблемы?

Примечание. Я пока не знаю, как лучше выразить свой вопрос. Извините за плохой заголовок.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...