Question

У меня есть довольно сложный PDF-файл (руководство по продукту), содержащий закладки, таблицы данных, изображения и т. Д. Поскольку мне потребуется обработать огромную партию из них, я ищу варианты разбора файлов, извлекающих столько деталей, сколько возможно.

Первоначальная идея состояла в том, чтобы преобразовать PDF в XML-подобную структуру, которая сохранится в базе данных и может быть легко пройдена с помощью XPath. Пока я рассматривал возможные решения на разных языках, я не мог найти того, который мог бы выполнить эту задачу.

Так что мне нужно сделать следующее:

Определить заголовок по содержимому строки
Выберите все элементы от заголовка до определенного типа элемента
Захват текста и извлечение его
Найти все элементы по типу во всем документе (элементы SVG)
Извлеките их и сохраните в определенных файлах

Как извлечь определенные элементы из файла PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как извлечь определенные элементы из файла PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов