Какое регулярное выражение соответствует любому китайскому символу в R?
[\\p{Han}] не работает должным образом.
[\\p{Han}]
v=c("a","b","c","中","e","文") grep("[\\p{Han}]",v, value = TRUE) [1] "a"
Согласно регулярные-выражения.info , «Движок JGsoft, Perl , PCRE, PHP, Ruby 1.9, Delphi и XRegExp могут соответствовать сценариям Unicode» .Поэтому установка perl = T должна давать правильные результаты.По умолчанию R является модифицированной версией двигателя TRE Вилле Лаурикари ( источник ):
perl = T
grep("[\\p{Han}]", v, value = T, perl = T) #### OUTPUT #### [1] "中" "文"