Я настраиваю сервер для выполнения большого количества автоматических OCR с использованием tesseract, и я хочу выполнить некоторую постобработку результатов.
Существует много ресурсов по этому поводу с теоретической стороны, но я не нашел много на практической стороне.
Я предполагаю, что вы можете сделать несколько основных вещей, например:
- Устранить три одинаковые буквы подряд
- Устранить слова со всеми гласными
- Устранить «слова» длиннее определенной длины
- И т. Д.
Я не задумывался об этом, но текст OCR получаетЕсли вы вводите в поисковую систему, то хорошо держать маленькую карту слов, как и исключать или исправлять слова, которые явно неверны.
Если это имеет значение, сам контент представляет собой судебные документы, написанные на английском языке.Так что время от времени появляются собственные имена, но разнообразие слов, вероятно, невелико, и шрифты, вероятно, довольно стабильны.
Какие-нибудь указатели или хорошие ресурсы, о которых я должен знать?