K-средства в кластеризации текста не удается - PullRequest
0 голосов
/ 05 ноября 2019

Не удалось сгруппировать текст с помощью k-средних

Я вычислил word2vec из 6000 рецензий и хочу сгруппировать векторы слов с помощью k-средних. Я сталкиваюсь с этими проблемами

  • w2v дает 9391 уникальных слов. Такое ощущение, что после исправления опечатки, лемматизации и фильтрации для обычного разговора очень много

  • окончательная матрица w2v равна 9391x300. Кластеризация с использованием k-средних является полным провалом;нет кластеров, только один большой шарик. Я пробовал с несколькими (<10) и многими (50-200) кластерами, но все безрезультатно. Я пробовал это с ненормализованными векторами слов и нормализованными, но нет никакой разницы </p>

где я ошибаюсь?

спасибо,

Andreas

...