Частичное совпадение строк в R для объединения текста в одну категорию - PullRequest
0 голосов
/ 18 декабря 2018

У меня есть набор данных, как следует

EstablishmentName                    Freq
bahria university                    20 
bahria university islamabad          12
arid agriculture                     3
arid agriculture university          15
arid rawalpindi                      9
college of e&me, nust                20
college of e & me (nust)             15
college of eme                       30

Как вы можете видеть выше, Университет Бахрии и Университет Бахрии Исламабад почти одинаковы, поэтому применимы и к другим строкам.Я хочу объединить их в один такой, что

Ожидаемый результат

EstablishmentName                   Freq
Bahria University                   32
Arid Agriculture                    27
College of EME                      30

Я пробовал следующее решение, но оно не работает.

     library(SnowballC)
     library(dplyr)

    mutate(df, word = wordStem(EstablishmentName)) %>%
      group_by(EstablishmentName) %>%
      summarise(total = sum(Freq))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...