У меня есть фрейм данных со столбцами, содержащими слова, которые составляют ngram.Я хотел бы суммировать количество стоп-слов в каждой ngram и добавить этот столбец в фрейм данных, но я не могу придумать элегантный способ сделать это с несколькими значениями для n (4 грамма, 5 граммов и т. Д.).).
До сих пор я делал следующее :
mutate(Bigram_Counts_By_Company,
stopword_count = (word1 %in% stop_words$word) %>% as.integer() +
(word2 %in% stop_words$word) %>% as.integer())
Теперь это работает, но я бы скорее написал общую функцию, которая делает то же самое со всемистолбцы, начинающиеся с «name».
Что я хотел бы сделать :
mutate(Web_Bigram_Counts_By_Company,
stopword_count = select(Web_Bigram_Counts_By_Company, starts_with("word")) %in% stop_words$word)
select(Web_Bigram_Counts_By_Company, starts_with("word"))
отлично работает для выбора столбцов, имена которых начинаются с 'name ', но когда я использую его в вызове для изменения, я получаю эту ошибку: Column 'stopword_count' must be length 360463 (the number of rows) or one, not 2
Это просто простая ошибка R основы или я ошибаюсь?