Question

Я ищу способ разбора PDF-документа на основе их визуальной структуры .

Пример PDF Я пытаюсь разобрать. Основываясь на этом документе PDF, я хочу разобрать структуру документа следующим образом.

Поскольку целевой PDF генерируется из различных инструментов, я не мог ожидать, что мои PDF-файлы будут иметь определенные метаданные, поэтому я думаю Я должен подходить к этой проблеме исключительно на основе обработки изображений . По сути, мне нужен своего рода YACC-подобный генератор парсера для изображений. Некоторый генератор синтаксических анализаторов, который может генерировать анализатор изображений из EBNF-подобной грамматики.

document := section*
section := header problem+
header := [Something that looks like an header image]
problem := [Anything] [Vertical bar] description
description := answer [Anything]
answer := [Something that looks like an answer image]

Ср) Мне не нужно никакого распознавания. Я могу извлечь весь нужный мне текст из самого PDF. Мне просто нужен способ отделить структуру PDF от их визуальных элементов.

Как называется моя проблема? Обычно термин анализ изображения означает анализ пикселей PNG или JPEG, а не анализ внутреннего содержимого изображения.
Какие библиотеки или программы я могу использовать для решения своей проблемы?

Примечание. Я пока не знаю, как лучше выразить свой вопрос. Извините за плохой заголовок.

Способ отделения структуры содержимого PDF от их визуальных элементов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Способ отделения структуры содержимого PDF от их визуальных элементов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы