У меня возникли проблемы с результатами кластеризации k-средних на Alteryx.Я пытаюсь провести тематическое моделирование на моем наборе данных около 5000 текстовых описаний.После очистки, анализа и удаления стоп-слов и общих слов я создал матрицу терминов документа из 20 слов и около 5000 документов.
После запуска кластеризации K-Means на Alteryx, независимо от того, сколько кластеров я указал,во всех кластерах всегда будет только 1 документ, кроме одного со всеми остальными.Например:
2 кластера
- Кластер 1: 19 слов
- Кластер 2: 1 слово
3 Кластера
- Кластер 1: 18 слов
- Кластер 2: 1 слово
- Кластер 3: 1 слово
5 Кластеров
- Кластер 1: 16 слов
- Кластер 2: 1 слово
- Кластер 3: 1 слово
- Кластер 4: 1 слово
- Кластер 5:1 слово
Такое поведение кластеризации происходит независимо от того, сколько кластеров я указал.Нужна помощь, чтобы пролить некоторый свет и определить, будут ли эти результаты означать, что у моих данных есть проблемы или если я не использовал правильные настройки?
Заранее спасибо!