У меня есть фрейм данных (df) с информацией о домах.Одной из переменных является необработанный адрес для каждого дома.Фрейм данных выглядит примерно так:
City address beds .. price
San Diego 4 Main street 4 400000
San Diego 12 Castle Villas 3 250000
...
Некоторые адреса (которые я закодировал как переменную фактора, но можно изменить) содержат слово «виллы» (или «виллы»).Я хочу идентифицировать все адреса домов, которые содержат слово «виллы», и назначить их для чего-то, и назначить все другие свойства для чего-то еще.Это для использования в дереве решений для оценки стоимости дома.
В настоящее время я пытаюсь что-то вроде:
df$rawAddress <- factor(df$rawAddress, levels=c(levels(df$rawAddress), "Other"))
villas <- list("villas", "Villas")
df$rawAddress[! df$rawAddress %in% villas] <- "Other"
Но это проверка того, равен ли весь адрес "villas", поэтому ложно для всех записей.