Работая над неконтролируемым конвейером, я понял, что идентификация описания кластеров текстовых данных является одним из сложных аспектов.
Я обучил Kmeans функциям TFIDF и вручную прошел через элементы каждого кластера, чтобы определить, что каждый о кластере идет речь.
Хотя я пробовал топи c моделирование (LDA), наиболее частые термины для каждого кластера, но эти методы не дают хороших результатов. Существуют ли другие способы автоматизации этого процесса.