Неверные координаты, полученные из изображения с использованием ABBYY OCR SDK - PullRequest
2 голосов
/ 30 декабря 2011

Я пытаюсь обработать изображение, используя ABBYY OCR SDK, используя образец кода, помещенный в этом вопросе , но я не могу получить координаты для конкретного слова, скажем "OCR", на скриншот ниже.

enter image description here

Я хочу нарисовать наложение (желтый прямоугольник над словом «OCR»), и иногда этот прямоугольник располагается очень далеко от фактического слова.

Ответы [ 2 ]

3 голосов
/ 04 января 2012

Получаемый вами XML синтезируется в соответствии с этой схемой .

Для каждого распознанного символа он будет содержать экземпляр элемента charParams, как показано в ответе, который вы связали с . Элемент будет содержать координаты в пикселях страницы - тот же XML также содержит элемент page:

<page width="..." height="..." resolution="..." originalCoords="...">

где хранятся ширина и высота изображения. Таким образом, l и r для каждого элемента charParams находятся в диапазоне 0..width-1 соответствующей страницы, а t и b для каждого элемента charParams находятся в диапазоне 0..height-1 соответствующей страницы.

Также стоит прямо упомянуть, что все координаты в пикселях - они полностью независимы от разрешения. Вот почему всякий раз, когда вы пытаетесь выделить что-либо на изображении, вы должны принимать во внимание увеличение - изображение, скорее всего, не всегда будет отображаться как есть в программном обеспечении вашего устройства, но будет уменьшено, и вам придется отображать координаты страницы на увеличенном координаты изображения и выделите соответствующим образом.

2 голосов
/ 01 января 2012

Вы проверили DPI исходного изображения, а также проверьте документацию, чтобы убедиться, что механизм распознавания использует тот же DPI и не возвращает изображение в точках или какой-либо другой измерительной системе.

Возможно, прямоугольник, который вы рисуете в iOS, основан не на пикселях, а на какой-то другой измерительной системе.

Вам просто нужно проработать процесс, тестировать по ходу дела и выяснить, откуда возникла проблема. Скорее всего, это равномерное масштабирование, а расстояние от фактического слова пропорционально расстоянию от слова до верхнего левого края страницы.

...