У меня есть корпус, который содержит 100 документов с именами от d1 до d100.Когда я запустил дендрограмму, я нашел 15 из этих документов с похожим содержанием.Это были первые 15 документов.
Я попытался запустить подмножество для анализа каждого набора документов в отдельности, используя это:
tm_filter(docs, function(x) any(grep(c(1:15), names(x), value =TRUE)))
Однако, похоже, я не используюправильный фильтр.Есть ли способ составить корпус на основе названий документов?или больше как числовые биты названия документов?