Question

У меня есть система, которая в конечном итоге создает PDF-файлы из HTML-файла.Это работает очень похоже на слияние почты.Он извлекает данные из базы данных, объединяет данные в держатели в html-документе, а затем преобразует html-файл в pdf.

Когда я занимаюсь модульным тестированием html-файла, я могу посмотреть значения в моем заполнителе,Например, если у меня был Джон Смит, и я хочу подтвердить, что его зовут «Джон Смит», я просто смотрю значение div после слияния.

Мне нужно сделать нечто подобное с проверкой данных в PDF.Используя pdfbox и itext, я смог извлечь текст из местоположения, а также текст из документа, но я не могу найти ничего, что позволило бы мне создать «тег / заполнитель / ...» и извлечь из него информацию, аналогичнуюЯ делаю с HTML-файлом.

Возможно ли это с pdf?

Joris Schellekens · Answer 1 · 09 ноября 2018

Это вполне возможно при использовании pdf2Data, который является решением из пакета iText.

Демонстрацию можно найти здесь
http://pdf2data.online/

По сути, это именно то, что вы описали,вам предоставляется средство просмотра и некоторые инструменты, которые позволяют вам определять области интереса (то, что вы называли «заполнителями»).

Области интереса можно определить с помощью:

координат
относительно других областей интересов
относительно текста или регулярных выражений
, соответствующих определенному регулярному выражению
, совпадающих с таблицей
и т. Д.

Затем инструмент сохраняет ваш шаблон в виде файла XML, и вы можете использовать код Java или .NET для извлечения информации из PDF-файла, соответствующего шаблону.

Вам предоставляется либоструктура данных, подобная json, или файл XML.Это должно сделать относительно простым тестирование того, содержит ли данная область интереса фрагмент текста.

Извлечение данных из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение данных из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы