Иерархическая кластеризация для текста в R - PullRequest
0 голосов
/ 16 января 2019

У меня есть датафрейм со столбцом со словами. Но эти слова содержат орфографические ошибки и другие вопросы. Я хочу кластеризовать их с помощью иерархической кластеризации.

Мой код:

Levenshtein <- adist(x$word, partial= TRUE, ignore.case = TRUE)

group <- hclust(dist(Levenshtein), method="ward.D)

test <- as.data.frame(cutree(group, 54))

Но как я могу рассчитать оптимальный порог и сгруппировать их? Кроме того, этот код подходит для текстовых данных?

Я хочу создать новый столбец с похожими именами в одном кластере.

...