Я пытаюсь использовать Microsoft OCR API для компьютерного зрения, чтобы получить информацию из таблицы на изображении.Проблема в том, что возвращаемые данные, как правило, содержат все виды областей qwerky, и я пытаюсь собрать все области вместе, чтобы получить полные строки читаемого и разбираемого текста.
Единственный способ, который я обдумал, - это использовать ориентацию для поворота координат ограничивающего прямоугольника и проверить, какие «линии» находятся в пределах заданного процента высоты другого заданного ограничивающего прямоугольника - возможно, 20% или около того.
Это буквально единственный способ, о котором я до сих пор думал, и я начинаю думать, что слишком усложняю это;Есть ли стандартный способ, которым люди обычно создают регионы распознавания, чтобы получить читаемый текст?