Как убрать порядковые показатели строки португальского языка - PullRequest
0 голосов
/ 31 мая 2019

В португальском языке некоторые имена имеют следующие символы:

feminine ª
and 
masculine º 

Мне нужно удалить их из моей строки, но я не могу найти правильное регулярное выражение.Кто-нибудь сможет мне помочь?

Ответы [ 2 ]

0 голосов
/ 31 мая 2019

Кодовая страница ASCII для португальского языка: CP860 . И коды для этих символов

  • Женский ª - \xa6
  • Мужской º - \xa7

Таким образом, вы можете iconv отправить их в ваш регион, а затем sub или gsub.

fem <- iconv('\xa6', 'CP860', 'UTF-8')
masc <- iconv('\xa7', 'CP860', 'UTF-8')

s <- c('feminine ª', 'masculine º')

sub(fem, '', s)
#[1] "feminine "   "masculine º"

sub(masc, '', s)
#[1] "feminine ª" "masculine "
0 голосов
/ 31 мая 2019

Кажется, что это работает, очень странно, но работает.

stringr::str_replace_all(string = inep$NO_ENTIDADE, pattern = "�", replacement = "")
...