Я бы исключил, если это возможно, короткие слова или контрактные слова, которые каким-то образом слишком сложны для их автоматического исправления (при условии проверки, что это не повлияет на ваш конечный результат).
Для более длинных слов:Вы можете использовать такие метрики, как расстояние Левенштейна или сходство Джаро.Первый состоит из минимального количества добавлений, удалений или замен для преобразования одного слова-кандидата в другое.Второй, дает аналогичный результат, между 0 и 1, и делает больший акцент на последних символах слова.
Если у вас есть доступ к правильной версии вашего жаргонного слова, вы можете преобразовать ближайших кандидатов в правильную.Конечно, стараясь не применять его к разным правильным словам.
Если вы работаете с Python, здесь предоставляются некоторые реализации.