Обучение под наблюдением с помощью распознавателя форм - PullRequest
0 голосов
/ 27 июня 2019

Я пытаюсь проанализировать форму, используя Microsoft Form Recognizer API, но я не вижу результатов, на которые надеялся. После обучения модели в моей форме, сгенерированные ею ключи очень редко бывают тем, чем я хочу быть. Кто-нибудь знает, есть ли способ повысить точность распознавания ключей? Я подумал, что может быть какой-то способ дать список пар ключ / значение при обучении в форме контролируемого обучения.

Здесь - это пример формы, которую я пытаюсь проанализировать.

Я ожидаю, что ключи 'Year', 'Make', 'Model' и 'VIN'. Но вместо этого модель возвращает ключ «Vehicle» со значениями «Year», «Make», «Model» и «VIN» и их последующие значения.

Я знаю, что я специально спрашивал о контролируемом обучении, но на самом деле любые методы или советы о том, как повысить точность модели распознавателя форм, были бы признательны.

1 Ответ

0 голосов
/ 27 июня 2019

Вы тренировали модель с 5 образцами? Можете ли вы попробовать добавить пустую форму без значений к данным обучения и посмотреть, поможет ли это? Отсканированы ли формы хорошего качества или они наклонены?

Ниже приведены несколько советов о том, как повысить точность:

Как создать обучающий набор данных для пользовательской модели Когда вы используете пользовательскую модель Form Recognizer, вы предоставляете свои собственные данные обучения, чтобы модель могла обучаться вашим отраслевым формам. Вы можете обучить модель с пятью заполненными формами или пустой формой (включите слово «пустой» в имени файла) плюс две заполненные формы. Даже если у вас достаточно заполненных форм для обучения, добавление пустой формы в набор данных для обучения может повысить точность модели.

Важно использовать набор данных, оптимизированный для обучения. Воспользуйтесь следующими советами, чтобы убедиться, что вы получите наилучшие результаты при работе с моделью поезда:

• Если возможно, используйте текстовые документы PDF вместо документов на основе изображений. Отсканированные PDF-файлы обрабатываются как изображения. • Используйте одну пустую форму и две заполненные формы, если они у вас есть. • Для заполненных форм используйте примеры, в которых все поля заполнены. • Используйте формы с разными значениями в каждом поле. • Если изображения формы имеют низкое качество, используйте больший набор данных (например, 10-15 изображений).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...