Если почтовый индекс всегда в конце, вы можете использовать
str_extract(Address_FULL,"[[:digit:]]{5}(-[[:digit:]]{4})?$")
Чтобы добавить столбец "zip" через dplyr
, вы можете использовать
df %>% mutate(zip = str_extract(Address_FULL,"[[:digit:]]{5}(-[[:digit:]]{4})?$"))
Где df
- ваш фрейм данных, содержащий Address_FULL и
str_extract()
от stringr
.
Состояние можно извлечь следующим образом:
str_extract(Address_FULL,"(?<=\\s)[[:alpha:]]{2}(?=\\s[[:digit:]]{5})")
Однако делает следующие предположения :
- Сокращение штата состоит из 2 символов
- За аббревиатурой состояния сразу следует пробел
- Почтовый индекс следует сразу после пробела, следующего за состоянием