Question

При извлечении значений с использованием Azure Form Recognizer многие значения отображаются дублированными.

Я обучил пользовательскую модель маркировке соответствующих ключевых значений. Я обнаружил, что OCR дублирует поля, так что, когда я маркирую, используя инструмент маркировки образца, я часто получаю один ящик внутри другого. Мне нужно выбрать один и отменить выбор другого, чтобы избежать дублирования значения.

Когда я запускаю модель для прогнозирования нового PDF для многих ключей, я также получаю дублирующиеся значения.

Кроме того, после проверки результата JSON я вижу, что во многих строках вложенные ограниченные рамки вложены, или перекрытие. То есть, как правило, у вас есть Линия, которая имеет ограниченный прямоугольник и связанный текст, который в свою очередь имеет «Слова», которые имеют ограниченный прямоугольник внутри Ограниченного прямоугольника Линии.

Просто чтобы уточнить, в JSON я вижу строки, которые имеют перекрывающиеся или вложенные ограниченные блоки и, следовательно, текст.

Любые подсказки, почему это может быть?

Xin Zou · Answer 1 · 29 марта 2020

Интересно, не могли бы вы показать пример используемого вами pdf-файла? Когда вы используете образцы PDF-документов, такой проблемы не возникало, верно? Пример файла данных можно найти здесь: https://github.com/Azure-Samples/cognitive-services-REST-api-samples/blob/master/curl/form-recognizer/sample_data.zip

Azure Распознаватель форм, дублирующий текст, извлеченный из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Azure Распознаватель форм, дублирующий текст, извлеченный из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы