несколько вопросов о распознавании почерка - PullRequest
1 голос
/ 05 января 2011

Привет, я учусь машинному обучению, и я хочу написать простое программное обеспечение для распознавания рукописного ввода с python и opencv.

для простоты, теперь я собираюсь распознавать только заглавные слова одного размераЯ думаю, что хороший способ распознать буквы - это использовать алгоритм ожидания-максимизации для изучения параметров модели гауссовой смеси, использовать обучающий набор и сравнивать новые буквы гауссовой смеси с обученными.но я не понимаю, как выбрать, сколько гауссов в смеси.

Вторая проблема заключается в том, как понять, сколько слов на странице и сколько букв в слове.я не думаю, что em-алгоритм или аналог (например, k-means) может быть решением, но наверняка есть некоторые проблемы с сегментацией

несколько советов?

1 Ответ

1 голос
/ 15 апреля 2011

Сначала нужно выровнять буквы. Если вы принимаете его в вертикальном положении, то хорошо. После этого вы можете использовать сегментацию kmeans с 2 кластерами, чтобы кластеризовать записи из фона (при условии, что фон простой). Как только вы закончите, вы получите двоичное изображение 1 в качестве переднего плана и ноль в качестве заднего плана. После этого вы можете выполнить анализ связанных компонентов, чтобы сегментировать каждую букву.

Я думаю, что вместо GMM вы могли бы использовать нейронную сеть для классификации букв. Like Вы можете нормализовать изображение буквы и отправить пиксели в нейронную сеть с 26 выходами для 26 алфавитов.

Это один из способов решения проблемы. Если вам нужна дополнительная информация или материалы для реализации или справочные документы, вы можете попросить об этом.

Спасибо, Кришна

...