Я работаю над оцифровкой большой коллекции отсканированных документов, работая с Tesseract 3 в качестве моего механизма распознавания. Качество его вывода посредственное, поскольку оно часто производит как символы мусора до и после фактического текста, так и ошибки в тексте.
Для первой проблемы кажется, что должны быть стратегии для определения того, какой текст на самом деле является текстом, а какой нет (большая часть этого текста - вещи, подобные именам людей, поэтому я ищу решения, отличные от поиска слова в словаре).
Для проблемы опечаток большинство ошибок проистекают из нескольких неправильных классификаций букв (например, заменяя l
, 1
и I
друг на друга), и, похоже, должны быть методы для угадать, какие слова написаны с ошибками (так как в английском языке не слишком много слов имеют «1»), и угадать, что является подходящим исправлением.
Каковы лучшие практики в этом пространстве? Существуют ли бесплатные / открытые реализации алгоритмов, которые делают подобные вещи? Google дал много документов, но мало конкретных. Если нет доступных реализаций, какая из многих работ будет хорошей отправной точкой?