Не удалось сгруппировать текст с помощью k-средних
Я вычислил word2vec из 6000 рецензий и хочу сгруппировать векторы слов с помощью k-средних. Я сталкиваюсь с этими проблемами
w2v дает 9391 уникальных слов. Такое ощущение, что после исправления опечатки, лемматизации и фильтрации для обычного разговора очень много
окончательная матрица w2v равна 9391x300. Кластеризация с использованием k-средних является полным провалом;нет кластеров, только один большой шарик. Я пробовал с несколькими (<10) и многими (50-200) кластерами, но все безрезультатно. Я пробовал это с ненормализованными векторами слов и нормализованными, но нет никакой разницы </p>
где я ошибаюсь?
спасибо,
Andreas