Как список слов, после inner_join () с лексиконом AFINN, может содержать больше элементов, чем лексикон? - PullRequest
0 голосов
/ 19 февраля 2020

Для домашней работы по статистике R я преобразовал текст «Гордость и предубеждение» в фрейм данных, в каждой строке которого содержится одно слово. Кадр данных имел 37 246 строк после удаления стоп-слов. Затем я использовал inner_join (), чтобы объединить фрейм данных с лексиконом чувств AFINN. Результирующий фрейм данных содержал 6065 строк, а лексикон AFINN - только 2477 строк. Как это может быть? Разве в результирующем фрейме данных не должно быть столько же строк, сколько в лексиконе?

Я попытался выяснить, какие слова находятся в фрейме данных, но не в лексиконе, но код не работает:

afinn_sentiments %>% filter(!word %in% afinn) 

afinn_sentiments - это фрейм данных с 6 065 строками, в то время как afinn содержит лексикон afinn.

Этот код по-прежнему выдает 6 065 строк, что невозможно.

Может кто-нибудь пожалуйста помогите объяснить это?

...