Прежде всего мне жаль, если у меня плохое форматирование, это мой первый пост (также плохо знакомый с программированием и R)
Я пытаюсь объединить два фрейма данных вместе на строковые переменные. Я объединяю названия университетов, которые могут не совпадать идеально, поэтому я надеялся объединить, используя нечеткую или приблизительную функцию сопоставления строк. Я был счастлив, когда нашел пакет «fuzzyjoin».
от CranR:
stringdist_join: объединение двух таблиц на основе нечеткого сопоставления строк их столбцов
stringdist_join(x, y, by = NULL, max_dist = 2, method = c("osa", "lv",
"dl", "hamming", "lcs", "qgram", "cosine", "jaccard", "jw","soundex"), mode = "inner", ignore_case = FALSE, distance_col = NULL, ...)
мой код:
stringdist_left_join(new, institutions, by = c("tm_9_undergradu" = "Institution.Name"))
Ошибка:
Error in dists[include] <- stringdist::stringdist(v1[include], v2[include], :
NAs are not allowed in subscripted assignments
Я знаю, что в этих столбцах есть некоторые АН, но я не уверен, как их можно удалить, так как они мне там тоже нужны. Я знаю, что другие функции объединения и слияния НС будут просто игнорироваться. Кто-нибудь знает способ обойти эту ошибку для этого пакета или сделать приблизительное соединение строк другим способом. Спасибо за помощь.