Всего уникальных слов в столбце - R - PullRequest
0 голосов
/ 26 июня 2018

Я заинтересован в подсчете уникальных слов, которые появляются в столбце.Вместо того, чтобы получать уникальные слова в строке, как указано в Подсчитать уникальные слова в новом столбце Я заинтересован в получении одного ответа, который подсчитывает все уникальные записи в этом столбце.В следующем примере всего уникальных стран 3: Китай, Австралия и Корея

Есть ли короткий способ получить эту сумму?Я все еще изучаю R, поэтому у меня ограниченные знания.

Countries

China  Australia

Australia

China China 

Korea Korea Korea Korea

Ответы [ 2 ]

0 голосов
/ 26 июня 2018

Это основано на шаблоне предоставленных вами данных:

length(unique(unlist(str_split(data$Countries, ' '))))
0 голосов
/ 26 июня 2018

Мы можем split столбец 'Страны' по пробелам unlist и получить length из unique слов

length(unique(unlist(strsplit(df1$Countries, " "))))
#[1] 3

Или используя tidyverse

library(tidyverse)
df1 %>% 
    separate_rows(Countries) %>% 
    distinct() %>%
    nrow
#[1] 3

данные

df1 <- structure(list(Countries = c("China Australia", "Australia", 
 "China China", "Korea Korea Korea Korea")), .Names = "Countries",
  class = "data.frame", row.names = c(NA, -4L))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...