В общем, Kofax Transformations имеет две группы локаторов:
- Детерминист.Вы точно указываете локатору, что делать и как это делать (похоже на императивный подход при программировании)
- Вероятностный.Вы просто указываете своему локатору, что нужно извлечь, а остальное (на основе AI) сработает.
Вот (не исчерпывающая) диаграмма, которую я создал на днях:
При работе с формами у вас может возникнуть искушение полагаться на локаторы, специфичные для форм, такие как Advanced Locator Locator.Хотя этот локатор может учитывать поля, «перемещающиеся», например, из-за тряски, увеличения или искажения изображений, существуют определенные ограничения.Другие локаторы не имеют этих ограничений - например, локатор формата позволяет вам определить определенный шаблон (регулярное выражение), который должен быть сопоставлен с ключевым словом, которое должно быть найдено где-то вокруг этого шаблона.
Для вашего примера вы можете создать регулярное выражение типа M|F|X
, а затем определить «Пол» как ключевое слово, которое должно присутствовать слева.
Однако любой локатор, управляемый детерминизмом, следует закону Мерфи -в какой-то момент это ключевое слово может измениться.Там могут быть разные языки.И, возможно, могут быть добавлены дополнительные буквы для определенных полов;в конечном итоге нарушая вашу логику извлечения.
Введите AI - хотя закон Мерфи все еще применяется при использовании групповых локаторов, разница здесь в том, что пользователи могут обучать систему собирать новые данные.Указанный локатор автоматически найдет лучший способ извлечь этот фрагмент данных.Если бы вы использовали указатель формата, клиенту нужно было бы обратиться к вам, чтобы добавить дополнительные выражения или изменить ключевые слова.
В вашем конкретном случае я бы попытался использовать обучаемую группуЛокатор первый.Если вы уже знаете, что ищете - например, SSN, которые есть где-то в базе данных, выберите Database Locator .Используйте Формат локаторов в качестве крайней меры, какими бы заманчивыми они ни были. Расширенные указатели зон полезны при работе с формами, но я обнаружил, что использую их почти исключительно для распознавания отпечатков пальцев или флажков.