Подмножество корпуса на основе имен документов - PullRequest
0 голосов
/ 25 октября 2018

У меня есть корпус, который содержит 100 документов с именами от d1 до d100.Когда я запустил дендрограмму, я нашел 15 из этих документов с похожим содержанием.Это были первые 15 документов.

Я попытался запустить подмножество для анализа каждого набора документов в отдельности, используя это:

tm_filter(docs, function(x) any(grep(c(1:15), names(x), value =TRUE)))

Однако, похоже, я не используюправильный фильтр.Есть ли способ составить корпус на основе названий документов?или больше как числовые биты названия документов?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...