Я работаю с некоторыми данными правительства США, которые имеют длинный список городов и почтовые индексы.После некоторой работы данные в следующем формате.
dat1 = data.frame(keyword=c("Bremen", "Brent", "Centreville, AL", "Chelsea, AL", "Bailytown, Alabama", "Calera, Alabama",
"54023", "54024"), tag=c(rep("AlabamCity",2), rep("AlabamaCityST",2), rep("AlabamaCityState",2), rep("AlabamaZipCode",2)))
dat1
Однако есть определенные ключевые слова, которые не работают должным образом.Таким образом, в приведенном ниже примере есть два «почтовых индекса», которые помечены как «AlabamaCity» и «AlabamaCityState».По какой-то причине исходный набор данных правительства содержит несколько почтовых индексов, которые неправильно сгруппированы с другими почтовыми индексами.
dat2 = data.frame(keyword=c("Bremen", "Brent", "50143", "Chelsea, AL", "Bailytown, Alabama", "52348",
"54023", "54024"), tag=c(rep("AlabamCity",2), rep("AlabamaCityST",2), rep("AlabamaCityState",2), rep("AlabamaZipCode",2)))
dat2
Я хотел знать, как можно перебирать весь список ключевых слов иудалите все строки с числовыми значениями (они фактически сохраняются как символьные значения), которые не имеют тега AlabamaZipCode.Таким образом, предыдущие данные должны выглядеть примерно так:
dat3 = data.frame(keyword=c("Bremen", "Brent", "Chelsea, AL", "Bailytown, Alabama", "54023", "54024"),
tag=c(rep("AlabamCity",2), rep("AlabamaCityST",1), rep("AlabamaCityState",1), rep("AlabamaZipCode",2)))
dat3
Кажется, что проблема в том, что есть определенные числовые значения, которые я хочу сохранить, и другие, которые я хочу удалить.Может ли кто-нибудь помочь.