Я хочу решить общую, но очень специфическую проблему: из-за ошибок распознавания многие файлы субтитров содержат символ «I» (верхний регистр i) вместо «l» (нижний регистр L).
Мой план атаки:
- Обработка файла слово за словом
- Передать каждое слово в проверку орфографии hunspell («echo the-word | hunspell -l» вообще не дает ответа, если оно действительно, и ответа, если оно плохое)
- Если это плохое слово, и в нем есть заглавные буквы Is, замените их на строчные l и попробуйте снова. Если теперь это верное слово, замените исходное слово.
Я, конечно, мог бы разбить на части и восстановить весь файл в скрипте, но прежде чем идти по этому пути, мне было интересно, возможно ли использовать awk и / или sed для такого рода условных операций на уровне слов?
Любые другие предложенные подходы также будут приветствоваться!