Я хотел бы использовать Google Vision для автоматизации извлечения информации из документа id, поддерживающего следующие форматы:
Формат 1:
![enter image description here](https://i.stack.imgur.com/6EzjG.png)
Я должен быть в состоянии получить:
- Имя: КАРМЕН
- Фамилия: MUESTRA MUESTRA
- Дата рождения: 01.01.1980
- DNI: 12345678A
Формат 2:
![enter image description here](https://i.stack.imgur.com/1uCEU.png)
- Имя: NOMBRE
- Фамилия: APELLIDO1 APELLIDO2
- Дата рождения: 01/05/1972
- DNI: 99999999-R
Несмотря на то, что распознавание текста API-интерфейсом достаточно точное, у меня возникают проблемы с пониманием извлеченной информации.
Ответ JSON объединяет текст в различные блоки в формат 1 для экземпляра БЛОК 1 (ESPAÑA) БЛОК 2 (DOCUMENTO NACIONAL DE IDENTIDAD).
Проблема в том, что блоки кажутся произвольными, иногдапревращает разные блоки, или агрегирует их по-разному.
1) Какие рекомендации вы бы дали для автоматизации этого процесса?
2) Можете ли вы показать пример обработки ответа в аналогичном сценарии?
3) Есть ли способ обучить платформу агрегировать информацию в соответствии с тем, что мы хотим извлечь?