При извлечении значений с использованием Azure Form Recognizer многие значения отображаются дублированными.
Я обучил пользовательскую модель маркировке соответствующих ключевых значений. Я обнаружил, что OCR дублирует поля, так что, когда я маркирую, используя инструмент маркировки образца, я часто получаю один ящик внутри другого. Мне нужно выбрать один и отменить выбор другого, чтобы избежать дублирования значения.
Когда я запускаю модель для прогнозирования нового PDF для многих ключей, я также получаю дублирующиеся значения.
Кроме того, после проверки результата JSON я вижу, что во многих строках вложенные ограниченные рамки вложены, или перекрытие. То есть, как правило, у вас есть Линия, которая имеет ограниченный прямоугольник и связанный текст, который в свою очередь имеет «Слова», которые имеют ограниченный прямоугольник внутри Ограниченного прямоугольника Линии.
Просто чтобы уточнить, в JSON я вижу строки, которые имеют перекрывающиеся или вложенные ограниченные блоки и, следовательно, текст.
Любые подсказки, почему это может быть?