Для домашней работы по статистике R я преобразовал текст «Гордость и предубеждение» в фрейм данных, в каждой строке которого содержится одно слово. Кадр данных имел 37 246 строк после удаления стоп-слов. Затем я использовал inner_join (), чтобы объединить фрейм данных с лексиконом чувств AFINN. Результирующий фрейм данных содержал 6065 строк, а лексикон AFINN - только 2477 строк. Как это может быть? Разве в результирующем фрейме данных не должно быть столько же строк, сколько в лексиконе?
Я попытался выяснить, какие слова находятся в фрейме данных, но не в лексиконе, но код не работает:
afinn_sentiments %>% filter(!word %in% afinn)
afinn_sentiments - это фрейм данных с 6 065 строками, в то время как afinn содержит лексикон afinn.
Этот код по-прежнему выдает 6 065 строк, что невозможно.
Может кто-нибудь пожалуйста помогите объяснить это?