Самым простым способом категоризации текста является использование набора слов представления. Слова / n-граммы слов в каждом документе могут быть использованы как функции. При этом вы можете представить каждый документ как вектор в метрическом пространстве. Впоследствии вы можете применить кластеризация для группировки документов, которые похожи по содержанию. Например, вы можете использовать кластеризацию k-средних с этими векторами для кластеризации лексически похожих документов.
Инструмент для анализа текста на основе Python, NTLK отлично подходит для быстрых экспериментов с подобными задачами (в общем, Python довольно хорош для работы с текстом). Вы можете найти это полезным.