Если метод локтя не дает четкого ответа, то, возможно, никакое количество кластеров не особенно хорошо. К-среднее может только моделировать сферические отношения, которые могут быть ограничивающими. Вы можете попробовать другие представления функций, например, что-то на основе Word Embeddings.
Для задачи группировки документов вы можете использовать подход к моделированию тем вместо кластеризации, такой как скрытое распределение Дирихле (LDA) или факторизация неотрицательной матрицы (NMF).