Ответ Фредли может быть расширен до грамматики, которая будет составлять слова из близлежащих букв.
Например, asasasasasdf
может быть сгенерировано с грамматикой, которая соединяет as
, sa
, sd
иdf
.
С такой грамматикой, развернутой до всех букв на клавиатуре (с буквами, расположенными рядом друг с другом), после разбора вы сможете определить, сколько текста можно сгенерировать с помощьюэта «бессмысленная» грамматика.
Предостережение: конечно, любой текст, обсуждающий такую грамматику и перечисляющий примеры «бессмысленного» текста, будет значительно выше, чем обычный текст с проверкой орфографии.
Обратите вниманиечто примерный подход не уловил бы вандализм в форме 'h4x0r rulezzzzz !!!!!'.
Другой подход здесь (который может быть интегрирован с вышеуказанным методом) состоял бы в статистическом анализе корпуса вандализма.текст и попытаться получить общие слова в вандализированных текстах.
РЕДАКТИРОВАТЬ:
Поскольку вы принимаете QWERTY, я думаю, мы могли бы предположить, что English, тоже?
А как насчет KISS - пропустите текст через английскую проверку орфографии и, если он потерпит неудачу, с сожалением придет к выводу, что это, вероятно, тарабарщина (вопрос в том, почему нужно отличать быстро набираемый тарабарщину от случайной чепухи или для этогоимеет значение из очень плохо написанного текста?)
В качестве альтернативы, если нужно рассмотреть другие раскладки клавиатуры (Дворжак, кто-нибудь?) и языки, то, возможно, пропустите текст через все доступные средства проверки правописания языка и затем продолжите (это дастязык автоопределения тоже).
Это не очень эффективный метод, но его можно использовать в качестве базового теста.
Примечание:
В долгосрочной перспективе я думаю, что вандалы адаптируютсяи начать вандализм, например, с отрывков из других страниц Википедии, которые в конечном итоге будет трудно автоматически определить как вандализм (хорошо, существующие тексты могут быть проверены контрольной суммой и подняты для дубликатов, но если текст поступил из какого-то другого источника, это будет в конечном итоге трудно).