str_extract не распознает русские шаблоны - PullRequest
1 голос
/ 13 апреля 2019

У меня есть эти данные:

  library(tidyverse)
  t1 %>% head(5)
                           shop_name
1                Москва ТРК "Атриум"
2      !Якутск Орджоникидзе, 56 фран
3                     Омск ТЦ "Мега"
4               Самара ТЦ "ПаркХаус"
5 Москва ТЦ "Новый век" (Новокосино)

Я хочу извлечь определенные шаблоны и добавить их в новый столбец.

t1 %>% 
mutate(location = str_extract(shop_name,"TPK|ТЦ|ТК|ТРЦ|МТРЦ|ТЦ"))

Тем не менее, я просто получаю АН из этого.Любая идея, в чем причина?

Для других операций, например, извлечения шаблона между кавычками, он работает нормально.

t1 %>%
mutate(name = str_extract(shop_name, '"\\D+"|"\\d+"')) 

Вот это dput():

structure(list(shop_name = c("Москва ТРК \"Атриум\"", "!Якутск Орджоникидзе, 56 фран", 
"Омск ТЦ \"Мега\"", "Самара ТЦ \"ПаркХаус\"", "Москва ТЦ \"Новый век\" (Новокосино)", 
"Тюмень ТЦ \"Гудвин\"", "Москва ТЦ \"Семеновский\"", "Казань ТЦ \"ПаркХаус\" II", 
"Интернет-магазин ЧС", "СПб ТК \"Сенная\"", "Ярославль ТЦ \"Альтаир\"", 
"СПб ТК \"Невский Центр\"", "Уфа ТК \"Центральный\"", "Красноярск ТЦ \"Взлетка Плаза\"", 
"Балашиха ТРК \"Октябрь-Киномир\"", "Химки ТЦ \"Мега\"", "Чехов ТРЦ \"Карнавал\"", 
"Якутск ТЦ \"Центральный\"", "Вологда ТРЦ \"Мармелад\"", "Воронеж (Плехановская, 13)", 
"Москва МТРЦ \"Афи Молл\"", "Воронеж ТРЦ \"Максимир\"", "Москва ТЦ \"МЕГА Теплый Стан\" II", 
"Якутск Орджоникидзе, 56", "РостовНаДону ТЦ \"Мега\"", "Москва ТЦ \"Перловский\"", 
"Москва ТЦ \"МЕГА Белая Дача II\"", "Сургут ТРЦ \"Сити Молл\"", 
"Тюмень ТЦ \"Зеленый Берег\"", "Курск ТЦ \"Пушкинский\"", "Уфа ТЦ \"Семья\" 2", 
"Красноярск ТЦ \"Июнь\"", "Москва ТЦ \"Ареал\" (Беляево)", "Н.Новгород ТРЦ \"Фантастика\"", 
"Калуга ТРЦ \"XXI век\"", "Волжский ТЦ \"Волга Молл\"", "Москва ТК \"Буденовский\" (пав.К7)", 
"Новосибирск ТЦ \"Мега\"", "Коломна ТЦ \"Рио\"", "Жуковский ул. Чкалова 39м?", 
"Сергиев Посад ТЦ \"7Я\"", "Москва Магазин С21", "Адыгея ТЦ \"Мега\"", 
"РостовНаДону ТРК \"Мегацентр Горизонт\"", "Мытищи ТРК \"XL-3\"", 
"Москва ТК \"Буденовский\" (пав.А2)", "Москва ТЦ \"Серебряный Дом\"", 
"Тюмень ТРЦ \"Кристалл\"", "Самара ТЦ \"Мелодия\"", "Томск ТРЦ \"Изумрудный Город\"", 
"!Якутск ТЦ \"Центральный\" фран", "Выездная Торговля", "Воронеж ТРЦ Сити-Парк \"Град\"", 
"Жуковский ул. Чкалова 39м<U+00B2>", "Н.Новгород ТРЦ \"РИО\"", 
"Новосибирск ТРЦ \"Галерея Новосибирск\"", "Казань ТЦ \"Бехетле\"", 
"РостовНаДону ТРК \"Мегацентр Горизонт\" Островной", "Цифровой склад 1С-Онлайн", 
"Москва \"Распродажа\"")), class = "data.frame", row.names = c(NA, 
-60L))
...