Кто-нибудь знает какие-либо данные, относящиеся к частоте типов ошибок, которые люди делают, когда они неправильно пишут слово? Я имею в виду не сами слова, а ошибки, допущенные машинисткой. Например, я лично делаю ошибки переноса наиболее сопровождаемыми ошибками удаления (то есть, не считая буквы, которую я должен), ошибками замещения и, наконец, ошибками вставки. Однако меня не удивит, когда я узнаю, что ввод неправильной буквы (ошибка подстановки, например, xat вместо cat) встречается чаще, чем отсутствие буквы.
Моя цель состоит в том, чтобы уметь правильно угадывать слово, когда у меня есть только исходный ввод пользователя. Идея состоит в том, что если один тип ошибки встречается чаще, чем другие, то более вероятно, что исправление слова с помощью этого типа операции является правильным. Я не возражаю против использования базы данных слов с ошибками, но предпочитаю алгоритмическое решение в зависимости от корпуса - особенно если оно может быть быстрее.