Question

Предположим, table_a состоит из столбца приблизительно из 1500 уникальных китайских символов, а table_b состоит из столбца из приблизительно 50 000 уникальных комбинаций китайских символов (многосимвольные фразы, предложения и т. Д. Различной длины).

Я бы хотел иметь возможность фильтровать по table_b и возвращать только строки, в которых комбинации символов only содержат символы из столбца символов в table_a. В идеале, этот код должен также игнорировать любые буквенно-цифровые символы и знаки препинания.

Есть ли способ легко сделать это в R, предпочтительно в базе R или с помощью функций в tidyverse (dplyr, stringr и т. Д.)? Я думал об использовании пакета stringr и регулярных выражений, но я не знаком с тем, как это работает с китайскими символами.

Чтобы немного упростить задачу, рассмотрим следующий пример:

list_a <- c("你","好","吗","不")
list_b <- c("你好","你好吗？","我很好","我不好")

Из этих двух списков я хотел бы вернуть list_c, то есть c("你好","你好吗？").

Я думаю, что любая логика / функция, используемая для этого, сможет использоваться внутриФункция фильтра Dyplyr для достижения моей цели.

Спасибо за помощь.

Критерии фильтрации для строк, которые содержат только определенные китайские символы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Критерии фильтрации для строк, которые содержат только определенные китайские символы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы