Базовая OCR PostProcessing (Корректор правописания) - PullRequest
4 голосов
/ 24 января 2012

Я настраиваю сервер для выполнения большого количества автоматических OCR с использованием tesseract, и я хочу выполнить некоторую постобработку результатов.

Существует много ресурсов по этому поводу с теоретической стороны, но я не нашел много на практической стороне.

Я предполагаю, что вы можете сделать несколько основных вещей, например:

  • Устранить три одинаковые буквы подряд
  • Устранить слова со всеми гласными
  • Устранить «слова» длиннее определенной длины
  • И т. Д.

Я не задумывался об этом, но текст OCR получаетЕсли вы вводите в поисковую систему, то хорошо держать маленькую карту слов, как и исключать или исправлять слова, которые явно неверны.

Если это имеет значение, сам контент представляет собой судебные документы, написанные на английском языке.Так что время от времени появляются собственные имена, но разнообразие слов, вероятно, невелико, и шрифты, вероятно, довольно стабильны.

Какие-нибудь указатели или хорошие ресурсы, о которых я должен знать?

1 Ответ

0 голосов
/ 24 января 2012

Каждый механизм распознавания будет иметь свой собственный набор общих ошибок, которые также будут зависеть от шрифтов в документе, качества сканирования, используемого dpi, цветного фона и предварительной обработки изображения, таких как despeckle, deskew, удаление линии. Вы узнаете, что это за ошибки, выполнив большое количество тестов и проанализировав результаты в поисках общего набора ошибок.

Использование правильных настроек сканера и алгоритмов предварительной обработки изображений может значительно улучшить результаты распознавания. Не стоит недооценивать эту часть.

Если текст состоит в основном из английских слов, тогда вам пригодится хороший словарь с нечеткой системой поиска. Другими полезными методами являются анализ триграмм и голосование с использованием второго механизма распознавания.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...