Извлечение данных из PDF - PullRequest
       45

Извлечение данных из PDF

0 голосов
/ 16 октября 2018

У меня есть система, которая в конечном итоге создает PDF-файлы из HTML-файла.Это работает очень похоже на слияние почты.Он извлекает данные из базы данных, объединяет данные в держатели в html-документе, а затем преобразует html-файл в pdf.

Когда я занимаюсь модульным тестированием html-файла, я могу посмотреть значения в моем заполнителе,Например, если у меня был Джон Смит, и я хочу подтвердить, что его зовут «Джон Смит», я просто смотрю значение div после слияния.

Мне нужно сделать нечто подобное с проверкой данных в PDF.Используя pdfbox и itext, я смог извлечь текст из местоположения, а также текст из документа, но я не могу найти ничего, что позволило бы мне создать «тег / заполнитель / ...» и извлечь из него информацию, аналогичнуюЯ делаю с HTML-файлом.

Возможно ли это с pdf?

1 Ответ

0 голосов
/ 09 ноября 2018

Это вполне возможно при использовании pdf2Data, который является решением из пакета iText.

Демонстрацию можно найти здесь
http://pdf2data.online/

По сути, это именно то, что вы описали,вам предоставляется средство просмотра и некоторые инструменты, которые позволяют вам определять области интереса (то, что вы называли «заполнителями»).

Области интереса можно определить с помощью:

  • координат
  • относительно других областей интересов
  • относительно текста или регулярных выражений
  • , соответствующих определенному регулярному выражению
  • , совпадающих с таблицей
  • и т. Д.

Затем инструмент сохраняет ваш шаблон в виде файла XML, и вы можете использовать код Java или .NET для извлечения информации из PDF-файла, соответствующего шаблону.

Вам предоставляется либоструктура данных, подобная json, или файл XML.Это должно сделать относительно простым тестирование того, содержит ли данная область интереса фрагмент текста.

...