Обрабатывать другой макет документа с помощью kofax - PullRequest
1 голос
/ 25 сентября 2019

Я новичок в решении KofaxTotalAgility, но мне хорошо известны OCR, OMR и механизм распознавания.

У меня есть две формы в одной папке, A и B. Обе они идентичны, но из-запри ручном сканировании происходит небольшое изменение осей, скажем, сдвиг вправо на 20 пикселей, поэтому макет немного отличается.

Макет Изображение A и Изображение B различаются, положениеформа на странице не является фиксированной.Я знаю, что другое решение, такое как «abbyy fine reader», предоставляет flexilayout, где мы можем справиться с этим, находя текст и настраивая справа налево сверху вниз для автоматического определения зон.

Поскольку я начал изучать KofaxTotalAgility, яне знает всех опций, предоставляемых «kofax Transformation Designer».

У меня вопрос, какой локатор я должен использовать, в настоящее время я использую / работаю над локатором зоны продвижения и для одного документа (изображение A), который я установил в качестве справочного, извлечение является правильным.Но для других (рисунок B) из-за несоответствия макета поле текста / поля не извлекается.

Может кто-нибудь указать правильное направление, откуда я могу правильно обработать этот случай.Я знаю, я прошу прямой вариант / решение, любая помощь очень важна.

1 Ответ

1 голос
/ 25 сентября 2019

В общем, Kofax Transformations имеет две группы локаторов:

  • Детерминист.Вы точно указываете локатору, что делать и как это делать (похоже на императивный подход при программировании)
  • Вероятностный.Вы просто указываете своему локатору, что нужно извлечь, а остальное (на основе AI) сработает.

Вот (не исчерпывающая) диаграмма, которую я создал на днях:

Locators in Kofax Transformations

При работе с формами у вас может возникнуть искушение полагаться на локаторы, специфичные для форм, такие как Advanced Locator Locator.Хотя этот локатор может учитывать поля, «перемещающиеся», например, из-за тряски, увеличения или искажения изображений, существуют определенные ограничения.Другие локаторы не имеют этих ограничений - например, локатор формата позволяет вам определить определенный шаблон (регулярное выражение), который должен быть сопоставлен с ключевым словом, которое должно быть найдено где-то вокруг этого шаблона.

Для вашего примера вы можете создать регулярное выражение типа M|F|X, а затем определить «Пол» как ключевое слово, которое должно присутствовать слева.

Однако любой локатор, управляемый детерминизмом, следует закону Мерфи -в какой-то момент это ключевое слово может измениться.Там могут быть разные языки.И, возможно, могут быть добавлены дополнительные буквы для определенных полов;в конечном итоге нарушая вашу логику извлечения.

Введите AI - хотя закон Мерфи все еще применяется при использовании групповых локаторов, разница здесь в том, что пользователи могут обучать систему собирать новые данные.Указанный локатор автоматически найдет лучший способ извлечь этот фрагмент данных.Если бы вы использовали указатель формата, клиенту нужно было бы обратиться к вам, чтобы добавить дополнительные выражения или изменить ключевые слова.

В вашем конкретном случае я бы попытался использовать обучаемую группуЛокатор первый.Если вы уже знаете, что ищете - например, SSN, которые есть где-то в базе данных, выберите Database Locator .Используйте Формат локаторов в качестве крайней меры, какими бы заманчивыми они ни были. Расширенные указатели зон полезны при работе с формами, но я обнаружил, что использую их почти исключительно для распознавания отпечатков пальцев или флажков.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...