Может я не понял вашего вопроса. Но я думаю, что вектор может быть проще для обработки, особенно если это столбец data.table
library(data.table)
list_words <- data.table(x = as.numeric(bag_of_words))
Если вы хотите, чтобы слова были длиной от 4 до 20 символов, используйте nchar
:
list_words <- list_words[nchar(x) %between% c(4,20)]
Подсчитать количество вхождений для каждого слова
list_words <- list_words[,.(n = .N), by = "x"]
Получить топ 100
list_words <- list_words[arrange(desc(n))][1:100]