Question

Привет, я учусь машинному обучению, и я хочу написать простое программное обеспечение для распознавания рукописного ввода с python и opencv.

для простоты, теперь я собираюсь распознавать только заглавные слова одного размераЯ думаю, что хороший способ распознать буквы - это использовать алгоритм ожидания-максимизации для изучения параметров модели гауссовой смеси, использовать обучающий набор и сравнивать новые буквы гауссовой смеси с обученными.но я не понимаю, как выбрать, сколько гауссов в смеси.

Вторая проблема заключается в том, как понять, сколько слов на странице и сколько букв в слове.я не думаю, что em-алгоритм или аналог (например, k-means) может быть решением, но наверняка есть некоторые проблемы с сегментацией

несколько советов?

Krish · Answer 1 · 15 апреля 2011

Сначала нужно выровнять буквы. Если вы принимаете его в вертикальном положении, то хорошо. После этого вы можете использовать сегментацию kmeans с 2 кластерами, чтобы кластеризовать записи из фона (при условии, что фон простой). Как только вы закончите, вы получите двоичное изображение 1 в качестве переднего плана и ноль в качестве заднего плана. После этого вы можете выполнить анализ связанных компонентов, чтобы сегментировать каждую букву.

Я думаю, что вместо GMM вы могли бы использовать нейронную сеть для классификации букв. Like Вы можете нормализовать изображение буквы и отправить пиксели в нейронную сеть с 26 выходами для 26 алфавитов.

Это один из способов решения проблемы. Если вам нужна дополнительная информация или материалы для реализации или справочные документы, вы можете попросить об этом.

Спасибо, Кришна

несколько вопросов о распознавании почерка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

несколько вопросов о распознавании почерка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы