Удаление части строки на основе значений из другого столбца данных - PullRequest
0 голосов
/ 21 января 2019

У меня есть набор данных школ, и я хочу вывести префикс перед школами, чтобы у него просто было название школы (а иногда и номер).Префикс также указан в другом столбце (tipo.organización), поэтому я хочу взять значение из tipo.organización и удалить его из названия школы (nombre.establecimiento).

Я пытался использовать gsub для удаления части строки из имени, но я не мог просто передать имя столбца как набор значений для изменения.Как я могу заставить его просмотреть каждое значение и сравнить его со столбцом tipo.organizacion, а затем удалить то, что не нужно?

data <- read.csv("...", header = TRUE)
data$nombre.establecimiento <- 
as.character(data$nombre.establecimiento)

#Remove Duplicates
new <- data[!duplicated(data$nombre.establecimiento),]

#tried to take out values from other column
new$nombre.establecimiento <- gsub(new$tipo.organización, '', 
new$nombre.establecimiento)

Спасибо !!

Ссылкак набору данных

1 Ответ

0 голосов
/ 21 января 2019

Этот вопрос имеет похожую проблему и много хороших ответов.Подход stringr в вашем случае будет выглядеть примерно так:

new$nombre.establecimiento = str_replace_all(new$nombre.establecimiento,
                                             new$tipo.organización, '')

(я перешел по ссылке и получил набор необработанных данных, и, возможно, вам потребуется дополнительная очистка, чтобы это сделатьчто вы хотите. Я вижу много различий между содержанием tipo.organización и началом nombre.establecimiento: символы с ударением / без акцента, лишние слова и т. д. Вы, возможно, уже делаете это, конечно! Ссылка надля проверки этой части проблемы будет полезен очищенный набор данных.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...