Question

Я работаю над проектом по извлечению информации для получения изображений. Я использую Google Vision API в качестве OCR и хочу извлечь Итого и НДС из квитанции. Я думаю об использовании подхода машинного обучения, потому что структура квитанции не совпадает.

Ниже приведены некоторые коммерческие продукты сканирования чеков, в которых используется подход ML,

Google Vision API предоставляет необработанные тексты и их ограничивающую рамку. Как извлечь необходимую информацию из необработанных текстов?

George Yu · Answer 1 · 06 мая 2019

Я думаю, вам может понадобиться определить некоторые разделы, которые вы хотите извлечь.Например, ссылочный идентификатор, вам нужно определить, как вы будете его называть.Поскольку некоторые магазины называют его «ссылочным идентификатором», некоторые называют его «ссылочным кодом», а некоторые называют его «ref ID».Вы можете использовать именованное распознавание сущностей для захвата этих словЗатем обучите модель классификации, чтобы сопоставить все эти разные имена с определенным вами именем.Это на самом деле текстовая классификация.Затем вы также можете обучить модель распознавания именованных сущностей для захвата фактического кода, прикрепленного к имени раздела.

Как разработать модель машинного обучения для извлечения информации из чека

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как разработать модель машинного обучения для извлечения информации из чека

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы