У меня есть датафрейм, содержащий данные о ценах на жилье, с ценой и множеством переменных.Одна из этих переменных - это «область» для свойства, и я пытаюсь включить это в различные регрессии.Тем не менее, это фактор переменной с почти 3000 уровней.
Например:
table(df$sub_area)
La Jolla
2
Carlsbad
5
Esconsido
1
.. и т. Д.
Я хочу отфильтровать те места, которые имеют только 1 счет, поскольку они не обладают большой предсказательной силой, нодобавить много времени вычислений.Однако я хочу заменить запись sub_area для этого свойства пустым или NA, так как я все еще хочу использовать остальную информацию для этого свойства, такую как спальни, ванные комнаты и т. Д.
Для справки,индивидуальная запись собственности может выглядеть следующим образом:
ID Beds Baths City Sub_area sqm... etc
1 4 2 San Diego La Jolla 100....
Тогда я могу сделать
лм (цена ~ кровати + ванные + город + подрайон)
под новый, меньший подрайонпеременная с меньшим количеством уровней.
Я хочу сделать это, потому что большая часть предсказательной силы цены содержится в подрайоне для местоположений, над которыми я работаю.