Если вы используете пакет tm и sparseMatrix
, вы превращаете строки в слова.Ваша дендрограмма будет состоять из слов, а не из предложений.Проверьте, что произойдет, если вы не транспонируете свою матрицу и используете plot(hclust(dist(y)))
.Вы увидите, что вы получаете слова, но не ваши предложения.
Используя пакет stringdist, мы можем вычислить расстояние между всеми предложениями, а затем использовать эту матрицу расстояний для hclust.Используя опцию useNames = "strings", мы добавляем строки в качестве меток в матрицу расстояний, и они будут использоваться в качестве меток в объекте hclust.
cl <- hclust(stringdist::stringdistmatrix(strings.to.cluster, method = "cosine", useNames = "strings"))
plot(cl)
![enter image description here](https://i.stack.imgur.com/YxGw5.png)
Если вас больше интересуют отдельные кластеры слов, вы можете проверить функции, доступные в пакете quanteda.Но обязательно прочитайте тему моделирования.