Как извлечь определенные элементы из файла PDF - PullRequest
0 голосов
/ 22 января 2019

У меня есть довольно сложный PDF-файл (руководство по продукту), содержащий закладки, таблицы данных, изображения и т. Д. Поскольку мне потребуется обработать огромную партию из них, я ищу варианты разбора файлов, извлекающих столько деталей, сколько возможно.

Первоначальная идея состояла в том, чтобы преобразовать PDF в XML-подобную структуру, которая сохранится в базе данных и может быть легко пройдена с помощью XPath. Пока я рассматривал возможные решения на разных языках, я не мог найти того, который мог бы выполнить эту задачу.

Так что мне нужно сделать следующее:

  • Определить заголовок по содержимому строки
  • Выберите все элементы от заголовка до определенного типа элемента
  • Захват текста и извлечение его
  • Найти все элементы по типу во всем документе (элементы SVG)
  • Извлеките их и сохраните в определенных файлах
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...