Вы просто (просто?) Должны определить меру "расстояния" для ваших данных.
Позволяет предположить, что вы уже сегментировали большое изображение на маленькие изображения, каждое из которых соответствует текстовому символу, который вы хотите классифицировать. Предположим, что мы имеем дело с цифровыми монокромными изображениями, поэтому каждое изображение представляется в виде прямоугольной матрицы значений (пикселей) в (скажем) целочисленном диапазоне 0-255 (яркость). Также предполагается (NN - «контролируемый алгоритм классификации»), что у вас есть много уже хорошо классифицированных изображений (ваш тренировочный набор).
Учитывая новое маленькое изображение, вы должны определить расстояние между двумя изображениями, чтобы выбрать наиболее близкое в обучающем наборе, а его «метка» была выбрана в качестве распознанного текстового символа.
Одним из наивных подходов было бы использование разности пикселей (например, суммы квадратов). Но эта мера расстояния будет чувствительна к сдвигам (и поворотам, и масштабированию), и мы обычно этого не хотим. Альтернативой может быть вычисление модуля преобразования Фурье, которое является трансляционно-инвариантным (но этого недостаточно). Отсюда вы можете начать - и оценить, что проблема сложная, и для такого рода классификации требуется много работы для приемлемого выполнения.