Похоже, вы смотрите на динамическое извлечение информации из неструктурированных форм.
Термин «Обработка неструктурированных форм» относится к получению данных из документов, которые не имеют фиксированной структуры.Примерами неструктурированных форм являются документы, такие как заказы на поставку, счета-фактуры, счета и вкладки.Эти типы документов имеют общий шаблон, но некоторые части формы могут различаться в зависимости от количества позиций или покупок, включенных в форму.
Чтобы извлечь данные из формы, вам потребуется использовать некоторыесвоего рода OCR, чтобы преобразовать изображение в текст.Вы можете использовать tesseract, если вы ищете решение с открытым исходным кодом и извлечь все данные из счета.Я выполнил поиск по переполнению стека для использования Tesseract в неструктурированных формах и наткнулся на эти решения, на которые вы можете посмотреть:
Необходим совет по сканированию квитанции Tesseract
Как извлечь соответствующую информацию из квитанции
Другой вариант - найти коммерческое решение, в котором есть библиотеки, которые решают эту проблему для вас.Компания, в которой я работаю LEADTOOLS , имеет библиотеку Распознавание и обработка счетов , которая позволяет вам определить мастера и затем легко обработать заполненные счета по счетам.Вот видеообзор SDK распознавания и обработки счетов:
Распознавание и обработка счетов
Снимок экрана демонстрационной версии счета-фактуры, включенной в SDK: