Есть несколько вещей, которые я бы предложил (хотя я не уверен, является ли SO правильным местом для этого вопроса):
a.Поскольку вы упоминаете, что вы кластеризуете неструктурированные текстовые документы, и вы не получаете хороших результатов, вам может потребоваться применить типичные задачи предварительной обработки текста, такие как стоп-слово, пунктуация, понижение регистра, остановка перед созданием матрицы TF-IDF.,Существуют другие задачи предварительной обработки текста, такие как удаление чисел, шаблонов и т. Д., Которые необходимо оценивать в каждом конкретном случае.Что касается визуализации в 2 D, вам необходимо уменьшить размерность вектора объектов до 2. Размер может уменьшиться с 2367 после предварительной обработки, но не намного.Затем вы можете использовать SVD в матрице TF-IDF и проверить величину дисперсии, которую он может объяснить.Однако сокращение до 2 компонентов может привести к большой потере данных, и визуализация не будет такой значимой.Но вы можете попробовать и посмотреть, имеют ли результаты смысл.
c.Если текстовое содержание в документах невелико, вы можете попробовать создать теги ручной работы, которые описывают документ.Эти теги не должны превышать 20 на каждый документ.С помощью этих новых тегов вы можете создать матрицу TF-IDF и выполнить SVD, что может дать более интерпретируемые результаты в 2D-визуализациях.
d.Для оценки сгенерированных кластеров можно также рассмотреть силуэтную меру .