У меня есть довольно сложный PDF-файл (руководство по продукту), содержащий закладки, таблицы данных, изображения и т. Д. Поскольку мне потребуется обработать огромную партию из них, я ищу варианты разбора файлов, извлекающих столько деталей, сколько возможно.
Первоначальная идея состояла в том, чтобы преобразовать PDF в XML-подобную структуру, которая сохранится в базе данных и может быть легко пройдена с помощью XPath. Пока я рассматривал возможные решения на разных языках, я не мог найти того, который мог бы выполнить эту задачу.
Так что мне нужно сделать следующее:
- Определить заголовок по содержимому строки
- Выберите все элементы от заголовка до определенного типа элемента
- Захват текста и извлечение его
- Найти все элементы по типу во всем документе (элементы SVG)
- Извлеките их и сохраните в определенных файлах