Альтернатива Tesseract OCR Training? - PullRequest
16 голосов
/ 01 апреля 2011

В течение последних 3 месяцев я пытался обучить Тессеракт
С определением коллекции изображений, которые у меня были, из-за реального отсутствия
надлежащей документации и очень высокого уровня сложности I 'м, начиная с
отказаться от Тессеракт в качестве решения.

Я ищу альтернативу, которая была бы относительно безболезненной
для тренировок, я не собираюсь заново открывать здесь колесо.

Если нет ничего бесплатногоЯ полагаю, что платные решения
придется делать (ничего больше 200 $)

Ответы [ 3 ]

6 голосов
/ 05 апреля 2011

Исходя из вашего комментария, все, что вам нужно, это сканировать относительно небольшое количество документов с почти 100% точностью, а ваш бюджет составляет около 200 $

Ну, тогда ответ прост. Вам не нужно никакого программного решения. Просто купите качественный коммерческий продукт для оптического распознавания текста, т.е. ABBYY FineReader (отказ от ответственности: я работаю на ABBYY). У него разные цены в разных регионах, но я думаю, это где-то в вашем бюджете.

Коммерческий настольный продукт для оптического распознавания текста обеспечит вам практически 100% точность при работе с типичными языками. Также у них есть удобные инструменты ручной проверки, чтобы исправить все оставшиеся ошибки. Как правило, они поддерживают целый ряд современных шрифтов, но если ваш шрифт не тривиален, для них есть утилита для обучения шрифтов.

Я думаю, что это оптимальное решение для вас.

ОБНОВЛЕНИЕ: платформа Linux. К сожалению, почти нет выбора высококачественных продуктов для оптического распознавания текста для Linux, извините. Единственное, что я знаю, это от ABBYY: http://ocr4linux.com/en:start, но оно не имеет интерфейса, проверки и обучения шрифтов. Но, по крайней мере, вы можете попытаться проверить, даст ли он достаточно хорошую точность, как это и может быть.

5 голосов
/ 20 декабря 2011

Я обучил tesseract 2.04 после 1 месяца работы над OCR. Расширенный шрифт. Работает очень хорошо и показывает точность выше 90 с размером шрифта 14.
Я предлагаю не сдаваться Тессеракт.
Пожалуйста, вы можете объяснить следующие проблемы вашей проблемы.

  1. Пожалуйста, дайте несколько изображений, которые вы хотите узнать. Знаете ли вы шрифты, используемые в этих изображениях
  2. Каков ваш очень высокий уровень сложности?
2 голосов
/ 15 мая 2011

Вы можете использовать jTessBoxEditor для редактирования созданных вами файлов ящиков. Вместе с ним поставляется сценарий PowerShell для автоматизации создания файла коробки и окончательной генерации файла .traineddata.

...