Да, как указывали люди, вы можете посмотреть на спам-фильтры или марковские модели.
Что-то проще было бы просто посчитать разные слова в каждом ответе и отсортировать по частоте. Если слова, подобные приведенным ниже, не указаны сверху, то, вероятно, это неверный текст:
, a , в , из , и , или, ...
Это наиболее часто используемое слово в любом обычном английском тексте.