Как разбить столбцы на несколько столбцов и найти частоту в R? - PullRequest
0 голосов
/ 11 ноября 2019

Ответ ODK

1
1; 2
1; 2; 3
1; 2; 3; 5
1; 2; 4
1; 2; 4; 5; 6
1; 2; 4; 6
1; 2; 4; 7

1 is Crop failure-
2 is Water shortage
3 is Land degradation
4 is Lack of HH Labor
5 is Lack of income from agriculture
6 is Lack of manure / fertilizer
7 is Others

Я хотел бы получить такую ​​таблицу

Crop failure- 8
Water shortage- 7
Land degradation- 6
Lack of HH Labor- 1
Lack of income from agriculture- 2
Lack of manure / fertilizer- 2
Others- 1

Я попытался в «Разделить один столбец с несколькими значениями на несколько столбцов», используя dplyr в R, но не могу помочь.

Ответы [ 3 ]

0 голосов
/ 11 ноября 2019
  • Если вы хотите использовать base R, вам может помочь следующее решение.

Предполагая, что вы вводите

response <- c(1, 1, 2, 1, 2, 3, 1, 2, 3, 5, 1, 2, 4, 1, 2, 4, 5, 6, 1, 2, 4, 6, 1, 2, 4, 7)

, тогда

status <- c("Crop failure", "Water shortage", "Lang degradation", "Lack of HH Labor",  "Lack of income from agriculture", "Lack of manure / fertilizer", "Others")
df <- as.data.frame(table(factor(response,labels = status),dnn = list("Status")))

может дать вам вывод, такой как

> df
                           Status Freq
1                    Crop failure    8
2                  Water shortage    7
3                Lang degradation    2
4                Lack of HH Labor    4
5 Lack of income from agriculture    2
6     Lack of manure / fertilizer    2
7                          Others    1
  • Если вы хотите иметь подробную таблицу: Предполагая, что вы вводите:
r <- list(1, c(1, 2), c(1, 2, 3), c(1, 2, 3, 5), c(1, 2, 4), c(1, 
2, 4, 5, 6), c(1, 2, 4), 6, c(1, 2, 4, 7))
type = seq(1,7)
dt <- as.data.frame(t(sapply(r, function(v) sapply(type, function(k) sum(k==v)))))
colnames(M) <- paste0("type",type)

, что дает

> dt
  type1 type2 type3 type4 type5 type6 type7
1     1     0     0     0     0     0     0
2     1     1     0     0     0     0     0
3     1     1     1     0     0     0     0
4     1     1     1     0     1     0     0
5     1     1     0     1     0     0     0
6     1     1     0     1     1     1     0
7     1     1     0     1     0     0     0
8     0     0     0     0     0     1     0
9     1     1     0     1     0     0     1

Кроме того, сумма записей каждого типа может быть рассчитана как colSums:

> colSums(dt)
type1 type2 type3 type4 type5 type6 type7 
    8     7     2     4     2     2     1

Или вы можете использовать match(), то есть

dt <- as.data.frame(t(sapply(r, function(v) !is.na(match(type,v)))))
> dt
  type1 type2 type3 type4 type5 type6 type7
1  TRUE FALSE FALSE FALSE FALSE FALSE FALSE
2  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE
3  TRUE  TRUE  TRUE FALSE FALSE FALSE FALSE
4  TRUE  TRUE  TRUE FALSE  TRUE FALSE FALSE
5  TRUE  TRUE FALSE  TRUE FALSE FALSE FALSE
6  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE
7  TRUE  TRUE FALSE  TRUE FALSE FALSE FALSE
8 FALSE FALSE FALSE FALSE FALSE  TRUE FALSE
9  TRUE  TRUE FALSE  TRUE FALSE FALSE  TRUE
0 голосов
/ 11 ноября 2019

Вот мое колебание в проблеме. Я использую tidyverse, потому что он загружает для меня stringr и tidyr

library(tidyverse)

id <- data.frame(Code = 1:7, #Make a coding data frame so you can label the results
                 Cause = c("Crop failure", "Water shortage", "Land degradation", "Lack of HH Labor", "Lack of income from agriculture", "Lack of manure / fertilizer", "Others"), stringsAsFactors = FALSE))

data <- Book1 %>% 
  separate(X1, into = paste0("X", 1:7), sep = ";") %>% #split the data by the ;, This induces NA that are removed later
  gather(key = "drop", value = "Code") %>% #put it into 1 column to exploit R's vectorization
  mutate(Code = as.integer(Code)) %>% #Make the code an integer for the join later
  filter(!is.na(Code)) %>% #remove those previous NAs
  group_by(Code) %>% 
  count() %>% # Counts 
  left_join(., id) #labels

colnames(data) <- c("Code", "Count", "Cause")

Он выдаст предупреждение на отдельной строке, но он просто дает вам знать, что он заполняет дополнительные ячейки NA, которые мы удаляем позже,Единственные вещи, которые вам, возможно, придется изменить, - это DataFrame и X1, в зависимости от того, как вы назвали свои объекты.

Вот как выглядят мои результаты

 Code Count Cause                          
  <int> <int> <chr>                          
1     1     8 Crop failure                   
2     2     7 Water shortage                 
3     3     2 Land degradation               
4     4     4 Lack of HH Labor               
5     5     2 Lack of income from agriculture
6     6     2 Lack of manure / fertilizer    
7     7     1 Others  

Надеюсь, это поможет !!

0 голосов
/ 11 ноября 2019

Используя plyr, вы можете получить следующее:

Condition = c("Crop failure", "Water shortage", "Lang degradation", "Lack of HH Labor",  "Lack of income from agriculture", "Lack of manure / fertilizer", "Others")
Type = c(1:7)
df = data.frame(Condition, Type)

vector = c(1,1,2,1,2,3,1,2,3,5,1,2,4,1,2,4,5,6,1,2,4,6,1,2,4,7)
t = plyr::count(vector)
colnames(t) = c("Type","Freq")

df =merge(df,t)

И вы получите:

> df
  Type                       Condition Freq
1    1                    Crop failure    8
2    2                  Water shortage    7
3    3                Lang degradation    2
4    4                Lack of HH Labor    4
5    5 Lack of income from agriculture    2
6    6     Lack of manure / fertilizer    2
7    7                          Others    1
...