Azure Распознаватель форм, дублирующий текст, извлеченный из PDF - PullRequest
0 голосов
/ 28 марта 2020

При извлечении значений с использованием Azure Form Recognizer многие значения отображаются дублированными.

Я обучил пользовательскую модель маркировке соответствующих ключевых значений. Я обнаружил, что OCR дублирует поля, так что, когда я маркирую, используя инструмент маркировки образца, я часто получаю один ящик внутри другого. Мне нужно выбрать один и отменить выбор другого, чтобы избежать дублирования значения.

Когда я запускаю модель для прогнозирования нового PDF для многих ключей, я также получаю дублирующиеся значения.

Кроме того, после проверки результата JSON я вижу, что во многих строках вложенные ограниченные рамки вложены, или перекрытие. То есть, как правило, у вас есть Линия, которая имеет ограниченный прямоугольник и связанный текст, который в свою очередь имеет «Слова», которые имеют ограниченный прямоугольник внутри Ограниченного прямоугольника Линии.

Просто чтобы уточнить, в JSON я вижу строки, которые имеют перекрывающиеся или вложенные ограниченные блоки и, следовательно, текст.

Любые подсказки, почему это может быть?

1 Ответ

0 голосов
/ 29 марта 2020

Интересно, не могли бы вы показать пример используемого вами pdf-файла? Когда вы используете образцы PDF-документов, такой проблемы не возникало, верно? Пример файла данных можно найти здесь: https://github.com/Azure-Samples/cognitive-services-REST-api-samples/blob/master/curl/form-recognizer/sample_data.zip

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...