Предположим, table_a
состоит из столбца приблизительно из 1500 уникальных китайских символов, а table_b
состоит из столбца из приблизительно 50 000 уникальных комбинаций китайских символов (многосимвольные фразы, предложения и т. Д. Различной длины).
Я бы хотел иметь возможность фильтровать по table_b
и возвращать только строки, в которых комбинации символов only содержат символы из столбца символов в table_a
. В идеале, этот код должен также игнорировать любые буквенно-цифровые символы и знаки препинания.
Есть ли способ легко сделать это в R, предпочтительно в базе R или с помощью функций в tidyverse (dplyr, stringr и т. Д.)? Я думал об использовании пакета stringr
и регулярных выражений, но я не знаком с тем, как это работает с китайскими символами.
Чтобы немного упростить задачу, рассмотрим следующий пример:
list_a <- c("你","好","吗","不")
list_b <- c("你好","你好吗?","我很好","我不好")
Из этих двух списков я хотел бы вернуть list_c
, то есть c("你好","你好吗?")
.
Я думаю, что любая логика / функция, используемая для этого, сможет использоваться внутриФункция фильтра Dyplyr для достижения моей цели.
Спасибо за помощь.