Как найти французский символ ударения UTF-8 в R с помощью простого символа, используя str_detect? - PullRequest
0 голосов
/ 24 августа 2018

Мне нужно найти акцентированные символы с простым символом.Например: «é», «è» или «ê» с e на французском канадском языке, UTF-8.

 library(tidyverse)

 Sys.setlocale(locale = "fr_CA.UTF-8")
 a <- c("Léger", "leger")

 str_detect(a, regex("leger", ignore_case=T))
 ## [1]  FALSE  TRUE

 str_detect(a, coll("leger", ignore_case=T, locale = "fra"))
 ## [1] FALSE  TRUE

Результаты этого кода должны быть ИСТИНА, ИСТИНА.

1 Ответ

0 голосов
/ 24 августа 2018

Вы можете преобразовать входную строку, чтобы просто использовать символы ASCII, а затем выполнить сопоставление для этого.Например

str_detect(iconv(a, to='ASCII//TRANSLIT'),regex("leger", ignore_case=T))
# [1] TRUE TRUE
...