Я действительно должен был разобраться в подобной проблеме пару лет назад.Когда я начинал проект, я понятия не имел, с чего начать, поэтому, надеюсь, я смогу спасти вас кого-нибудь еще в такой же ситуации, какое-то время.
Суть в том, что вы можете воспользоваться большим объемом работысделано в других областях.Я обнаружил, что наиболее важными из этих полей являются Доменное имя Регистрация.
Например, на сайте DomainTools есть ' Генератор опечаток домена ', который работает путем генерации списка опечаток доменных имен на основена родительском доменном имени, которое вы вводите.
Учитывая, что профессиональные владельцы доменных имен (aks squatters ) составляют значительную часть бизнеса любого регистратора, легко понять, для кого предназначен этот инструментдля (т. е. сквоттеры заинтересованы в получении общих опечаток доменных имен с большим трафиком - даже 2% ошибок для доменного имени с большим трафиком - это большой трафик * опечатка доменное имя.
Кроме того, я бы порекомендовал замечательное подробное исследование Microsoft Research за 2005 этого вопроса.
Наконец, в вычислительной лингвистике есть ключевая концепция.происходит от расстояния Левенштейна , называемого расстояния Дамерау-Левенштейна , что расширяет основную идею Левенштейна о расстоянии редактирования к конкретной проблеме людей, печатающих на клавиатуре.
Главный вывод из его исследовательской работы 1964 года заключался в том, что 80% всех опечаток можно описать одной из четырех операций - вставка, удаление, замена одного символа или транспонированиеиз двух символов.
Дамерау не только различил эти четыре операции редактирования, но также заявил, что они соответствуют более чем 80% всех орфографических ошибок человека.(Единственная ссылка, которую я предоставил для DL, - это статья в Википедии; я сделал это, потому что я думаю, что это отличное и краткое введение, а также содержит псевдокод для алгоритма DL, и, наконец, статья содержит ссылки на основные онлайн-источники для DL.