У меня есть датафрейм со столбцом со словами. Но эти слова содержат орфографические ошибки и другие вопросы. Я хочу кластеризовать их с помощью иерархической кластеризации.
Мой код:
Levenshtein <- adist(x$word, partial= TRUE, ignore.case = TRUE)
group <- hclust(dist(Levenshtein), method="ward.D)
test <- as.data.frame(cutree(group, 54))
Но как я могу рассчитать оптимальный порог и сгруппировать их? Кроме того, этот код подходит для текстовых данных?
Я хочу создать новый столбец с похожими именами в одном кластере.