Как свернуть очень коррелированные слова? - PullRequest
0 голосов
/ 28 апреля 2019

Я выбрал самые важные слова в тексте, используя метод tf-idf. Проблема в том, что этот метод дает мне много слов, которые очень коррелируют и представляют один и тот же контекст, что не приносит мне новую информацию. Поэтому я хочу максимизировать количество «важных» слов, не связанных между собой.

Я пришел к следующему решению:

text <- read_csv('texto.csv')

tfidf <- text %>%
unnest_tokens(word, `Texto do Comentário`) %>%
count(word, document) %>%
bind_tf_idf(word, document, n) %>%
top_n(10, tf_idf)

# Now, I use the words generated by tf-idf to find out how these words correlate with the others on the corpus.

correlations <- text %>%
unnest_tokens(word, `Texto do Comentário`) %>%
pairwise_cor(word, document) %>%
filter(item2 %in% tfidf$word)

Итак, это самое дальнее, что я мог получить. Теперь я хотел бы объединить очень коррелированные слова (корреляция> .7) и объединить их в одно слово, которое наиболее коррелирует между ними. Я не уверен, что лучший метод (PCA? Факторный анализ?) И не мог найти небольшую помощь в Интернете относительно этой задачи.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...