У меня есть фрейм данных из tidytext, который содержит отдельные слова из некоторых комментариев, полученных в ответах на опрос. В нем всего 500 000 строк. Будучи свободным ответом, он пронизан опечатками. Использование textclean :: replace_misspellings позаботилось о почти 13 000 слов с орфографическими ошибками, но я по-прежнему оставил ~ 700 уникальных орфографических ошибок, которые я определил вручную.
Теперь у меня есть вторая таблица с двумя столбцами, первая - орфографическая, а вторая - это исправление.
Например
allComments <- data.frame("Number" = 1:5, "Word" = c("organization","orginization", "oragnization", "help", "hlp"))
misspellings <- data.frame("Wrong" = c("orginization", "oragnization", "hlp"), "Right" = c("organization", "organization", "help"))
Как мне заменить все значения allComments$word
, которые соответствуют misspellings$wrong
, на misspellings$right
?
Я чувствую как это, вероятно, довольно основа c и мое невежество R показывает ....