Question

Я пытаюсь использовать Microsoft OCR API для компьютерного зрения, чтобы получить информацию из таблицы на изображении.Проблема в том, что возвращаемые данные, как правило, содержат все виды областей qwerky, и я пытаюсь собрать все области вместе, чтобы получить полные строки читаемого и разбираемого текста.

Единственный способ, который я обдумал, - это использовать ориентацию для поворота координат ограничивающего прямоугольника и проверить, какие «линии» находятся в пределах заданного процента высоты другого заданного ограничивающего прямоугольника - возможно, 20% или около того.

Это буквально единственный способ, о котором я до сих пор думал, и я начинаю думать, что слишком усложняю это;Есть ли стандартный способ, которым люди обычно создают регионы распознавания, чтобы получить читаемый текст?

Nikhil Bahrani · Answer 1 · 22 апреля 2019

Стандартного способа как такового не существует.Тем не менее, люди идут с опцией REGEX, в зависимости от требования.OCR Azure возвращает ответ JSON в виде слов и их ограничивающих рамок.Оттуда, это до вас, чтобы интерпретировать результат.Ocr apis не помогает в этой задаче.

Для начала regex - отличный способ для анализа текстовых данных.Или попробуйте подход машинного обучения, как описано в этом сообщении Reddit: https://www.reddit.com/r/MachineLearning/comments/53ovp9/extracting_a_total_cost_from_ocr_paper_receipt/

Microsoft Computer Vision OCR - объединяя линии из регионов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Microsoft Computer Vision OCR - объединяя линии из регионов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы