У меня есть набор данных, как следует
EstablishmentName Freq
bahria university 20
bahria university islamabad 12
arid agriculture 3
arid agriculture university 15
arid rawalpindi 9
college of e&me, nust 20
college of e & me (nust) 15
college of eme 30
Как вы можете видеть выше, Университет Бахрии и Университет Бахрии Исламабад почти одинаковы, поэтому применимы и к другим строкам.Я хочу объединить их в один такой, что
Ожидаемый результат
EstablishmentName Freq
Bahria University 32
Arid Agriculture 27
College of EME 30
Я пробовал следующее решение, но оно не работает.
library(SnowballC)
library(dplyr)
mutate(df, word = wordStem(EstablishmentName)) %>%
group_by(EstablishmentName) %>%
summarise(total = sum(Freq))