Я предполагаю, что с OCR вы имеете в виду Оптическое распознавание символов .
Я могу думать об этом надуманном решении (при условии, что у вас есть координаты x и y):
-Создание упорядоченного списка со всеми словами. Порядок должен выглядеть следующим образом *: word1> word2, если x1> x2 AND y1 = y2 (горизонтальный порядок) или если x1 = x2 AND y1> y2 (порядок строк).
-Найдите первое слово отрывка, проверьте, совпадает ли следующая запись в списке, и так далее. Более простым способом было бы найти первое и последнее слова, чтобы выделить каждое слово между ними, но это может создать совпадения, если слова общие.
Это должно работать, пока текст не очень наклонен. Если это так, вы должны рассчитать наклон и исправить его.
* РЕДАКТИРОВАТЬ: Может быть, проще, если вы сначала упорядочить строки, а затем слова После этого присоединяйтесь к спискам.