OCR с нейронной сетью: извлечение данных - PullRequest
2 голосов
/ 20 марта 2010

Я использую библиотечную инфраструктуру AForge и ее нейронную сеть.

В тот момент, когда я тренирую свою сеть, я создаю множество изображений (одно изображение на букву на шрифт) большого размера (30 пт), вырежьте реальную букву, уменьшите ее до меньшего размера (10x10 px) и сохраните на моем жестком диске.Затем я могу пойти и прочитать все эти изображения, создав свои массивы double [] с данными.На данный момент я делаю это на пиксельной основе.

Поэтому, как только я успешно обучил свою сеть, я тестирую сеть и позволяю ей работать на образце изображения с алфавитом разных размеров (прописными и строчными).

Но результат не очень многообещающий.Я настроил сеть так, чтобы ошибка RunEpoch составляла примерно 1,5 (так что ошибки почти не было), но все еще остались некоторые буквы, которые не были правильно идентифицированы в моем тестовом образе.

Теперь мой вопрос:это вызвано тем, что у меня неправильный метод обучения (на основе пикселей в сравнении с предлагаемым использованием рецепторов в этой статье: http://www.codeproject.com/KB/cs/neural_network_ocr.aspx - есть ли другие методы, которые я могу использовать для извлечения данных для сети?) или это может произойти из-замой алгоритм сегментации для извлечения букв из изображения, на который смотреть, плох?

У кого-нибудь есть идеи, как его улучшить?

1 Ответ

0 голосов
/ 08 мая 2010

Я бы попробовал сделать масштабирование ваших сетевых входов инвариантным. Другими словами, выполняется предварительная обработка объектов, найденных на тестовом изображении, для сегментирования отдельных объектов-кандидатов и изменения их размера в соответствии с размером вашего учебного набора. Из вашего описания вы этого не делаете. Я не знаком с AForge, так что, возможно, это подразумевается в вашем вопросе.

Мой опыт работы с нейронными сетями заключался в том, что предварительная обработка входных данных обычно приводит к гораздо лучшим результатам, если известен хороший способ сделать это. Здесь, казалось бы, что есть.

...