Это вполне возможно при использовании pdf2Data, который является решением из пакета iText.
Демонстрацию можно найти здесь
http://pdf2data.online/
По сути, это именно то, что вы описали,вам предоставляется средство просмотра и некоторые инструменты, которые позволяют вам определять области интереса (то, что вы называли «заполнителями»).
Области интереса можно определить с помощью:
- координат
- относительно других областей интересов
- относительно текста или регулярных выражений
- , соответствующих определенному регулярному выражению
- , совпадающих с таблицей
- и т. Д.
Затем инструмент сохраняет ваш шаблон в виде файла XML, и вы можете использовать код Java или .NET для извлечения информации из PDF-файла, соответствующего шаблону.
Вам предоставляется либоструктура данных, подобная json, или файл XML.Это должно сделать относительно простым тестирование того, содержит ли данная область интереса фрагмент текста.