Поиск общих строк между строками в R - PullRequest
0 голосов
/ 05 февраля 2020

У меня есть фрейм данных с 1 столбцом и 30 строками. В каждой строке есть описание, которое включает 3-4 предложения. Я хочу, чтобы можно было найти самые распространенные слова, общие для всех строк. Ie самые уникальные строки.

Например, «Apple» может быть самым распространенным словом из 17 вхождений.

Большое спасибо, ребята!

1 Ответ

0 голосов
/ 05 февраля 2020

Было бы проще ответить, если бы вы могли привести пример. Но я все равно попробую.

install.packages("tidyverse")
library(tidyverse)
install.packages("tidytext")
library(tidytext)

tidy_df <- df %>%
  unnest_tokens(word, text) %>%
  anti_join(stop_words) %>%  # this will remove words such as "the", "a", "an"
  count(word, sort = TRUE)
...