Стандартным термином для этого процесса является «сегментация символов» - сегментация - это термин обработки изображений для разбиения изображений на сгруппированные области для распознавания. «Сегментация арабских символов» вызывает много хитов в google scholar , если вы хотите узнать больше.
Я бы посоветовал вам взглянуть на Tesseract - реализацию OCR с открытым исходным кодом , особенно документы .
Элемент , как определено в Глоссарий имеет немного об этом, но здесь есть тонна информации.
По сути, Тессеракт решает проблему (из Как работает Тессеракт ), рассматривая капли (не буквы), а затем объединяя эти капли в слова. Это позволяет избежать проблемы, которую вы описываете, при создании новых проблем.
Для арабского (как вы указываете) Тессеракт не работает. Я не знаю много об этой области, но эта статья , кажется, подразумевает Dynamic Time Warping (DTW) - полезный метод. Это пытается растянуть слова, чтобы сопоставить их с известными словами, и снова работает в слове, а не в буквенном пространстве.