Как разработать модель машинного обучения для извлечения информации из чека - PullRequest
1 голос
/ 06 мая 2019

Я работаю над проектом по извлечению информации для получения изображений. Я использую Google Vision API в качестве OCR и хочу извлечь Итого и НДС из квитанции. Я думаю об использовании подхода машинного обучения, потому что структура квитанции не совпадает.

Ниже приведены некоторые коммерческие продукты сканирования чеков, в которых используется подход ML,

Google Vision API предоставляет необработанные тексты и их ограничивающую рамку. Как извлечь необходимую информацию из необработанных текстов?

1 Ответ

0 голосов
/ 06 мая 2019

Я думаю, вам может понадобиться определить некоторые разделы, которые вы хотите извлечь.Например, ссылочный идентификатор, вам нужно определить, как вы будете его называть.Поскольку некоторые магазины называют его «ссылочным идентификатором», некоторые называют его «ссылочным кодом», а некоторые называют его «ref ID».Вы можете использовать именованное распознавание сущностей для захвата этих словЗатем обучите модель классификации, чтобы сопоставить все эти разные имена с определенным вами именем.Это на самом деле текстовая классификация.Затем вы также можете обучить модель распознавания именованных сущностей для захвата фактического кода, прикрепленного к имени раздела.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...