Критерии фильтрации для строк, которые содержат только определенные китайские символы - PullRequest
2 голосов
/ 21 октября 2019

Предположим, table_a состоит из столбца приблизительно из 1500 уникальных китайских символов, а table_b состоит из столбца из приблизительно 50 000 уникальных комбинаций китайских символов (многосимвольные фразы, предложения и т. Д. Различной длины).

Я бы хотел иметь возможность фильтровать по table_b и возвращать только строки, в которых комбинации символов only содержат символы из столбца символов в table_a. В идеале, этот код должен также игнорировать любые буквенно-цифровые символы и знаки препинания.

Есть ли способ легко сделать это в R, предпочтительно в базе R или с помощью функций в tidyverse (dplyr, stringr и т. Д.)? Я думал об использовании пакета stringr и регулярных выражений, но я не знаком с тем, как это работает с китайскими символами.

Чтобы немного упростить задачу, рассмотрим следующий пример:

list_a <- c("你","好","吗","不")
list_b <- c("你好","你好吗?","我很好","我不好")

Из этих двух списков я хотел бы вернуть list_c, то есть c("你好","你好吗?").

Я думаю, что любая логика / функция, используемая для этого, сможет использоваться внутриФункция фильтра Dyplyr для достижения моей цели.

Спасибо за помощь.

...