Основной подход заключается в создании гистограммы из черных пикселей. Первое: спроецируйте все пиксели на линию. Глубокие впадины на гистограмме указывают на разделение между линиями (попробуйте разные углы, если бумага может быть наклонена). Затем на строку (или на страницу, если вы знаете, что шрифт моноширинный) спроецируйте пиксели на горизонтальную гистограмму. Это даст вам четкое представление о межсимвольных пробелах. Как минимум, это дает вам значение средней высоты и ширины символов, которое поможет вам в следующих шагах.
После этого вам нужно позаботиться о кернинге (где символы перекрываются). Найдите связанные пиксели, возможно, сначала выполнив дилатацию или эрозию изображения, чтобы компенсировать артефакты сканирования.
В зависимости от качества отсканированного изображения вам, возможно, придется использовать более продвинутые методы, но это поможет вам.