Сильно несбалансированные / перекошенные кластеры данных - PullRequest
0 голосов
/ 04 октября 2018

У меня возникли проблемы с результатами кластеризации k-средних на Alteryx.Я пытаюсь провести тематическое моделирование на моем наборе данных около 5000 текстовых описаний.После очистки, анализа и удаления стоп-слов и общих слов я создал матрицу терминов документа из 20 слов и около 5000 документов.

После запуска кластеризации K-Means на Alteryx, независимо от того, сколько кластеров я указал,во всех кластерах всегда будет только 1 документ, кроме одного со всеми остальными.Например:

2 кластера

  • Кластер 1: 19 слов
  • Кластер 2: 1 слово

3 Кластера

  • Кластер 1: 18 слов
  • Кластер 2: 1 слово
  • Кластер 3: 1 слово

5 Кластеров

  • Кластер 1: 16 слов
  • Кластер 2: 1 слово
  • Кластер 3: 1 слово
  • Кластер 4: 1 слово
  • Кластер 5:1 слово

Такое поведение кластеризации происходит независимо от того, сколько кластеров я указал.Нужна помощь, чтобы пролить некоторый свет и определить, будут ли эти результаты означать, что у моих данных есть проблемы или если я не использовал правильные настройки?

Заранее спасибо!

1 Ответ

0 голосов
/ 18 октября 2018

Вы просматривали свои данные после предварительной обработки?

Возможно, многие документы сейчас пусты или содержат только одно слово.

Не так много осталось, кроме как найти общие слова.

...