У меня много текстовых данных в data.table. У меня есть несколько текстовых шаблонов, которые меня интересуют. Я хочу разместить таблицу так, чтобы она отображала текст, соответствующий как минимум двум шаблонам.
Это еще более осложняется тем фактом, что некоторые из шаблонов уже являются или / или, например, чем-то вроде "paul|john"
.
Я думаю, что я либо хочу выражение, которое будет означать непосредственное подмножество на этой основе, либо, если я могу посчитать, сколько раз встречаются шаблоны, я мог бы затем использовать его как инструмент для подмножества. Я видел способы подсчета количества повторений шаблонов, но не там, где информация четко связана с идентификаторами в исходном наборе данных, если это имеет смысл.
На данный момент лучшее, что я могу придумать, это добавить столбец в таблицу data.table для каждого шаблона, проверить, соответствует ли каждый шаблон индивидуально, а затем отфильтровать по сумме шаблонов. Это кажется довольно запутанным, поэтому я надеюсь, что есть лучший способ, так как здесь достаточно много шаблонов для проверки!
Пример данных
text_table <- data.table(ID = (1:5), text = c("lucy, sarah and paul live on the same street",
"lucy has only moved here recently",
"lucy and sarah are cousins",
"john is also new to the area",
"paul and john have known each other a long time"))
text_patterns <- as.character(c("lucy", "sarah", "paul|john"))
С данными примера я бы хотел, чтобы идентификаторы 1 и 3 были в подмножестве данных.
Спасибо за вашу помощь!