Вы можете попробовать использовать словарный векторный анализ. Покрыты некоторые здесь:
http://en.wikipedia.org/wiki/Semantic_similarity
В основном вы создаете совокупность текстов, которые вы считаете «хорошо написанными» или «плохо написанными», и подсчитываете частоту определенных слов. Создайте нормализованный вектор для каждого, а затем вычислите расстояние между ними до векторов каждого входящего документа. Я не статистика, но мне сказали, что она похожа на байесовскую фильтрацию, но, похоже, лучше справляется с ошибками и выбросами.
Это не идеально, в любом случае. В зависимости от того, насколько точным он вам нужен, вам, вероятно, все равно понадобятся люди, чтобы принять окончательное решение. Но нам повезло, используя его в качестве предварительного фильтра для уменьшения количества рецензентов.