функция dcast с двоичными значениями и NA - PullRequest
0 голосов
/ 27 декабря 2018

Я хочу изменить столбец в моей data.table с помощью dcast, но я не хочу, когда это двоичные значения (0/1) или когда нет в уровнях

, например, эта data.table:

dt1 <- data.table::data.table("ID" = 1:4,'Col0' = c(1, 0, 1, 0),'Col1' = c('a', 'b', 'c', 'a'),'Col2' = (letters[20:23]),'Col3' = factor(c("a", "b", NA, "a"),levels = c("a", "b", "c")))

Я добавляю ID раньше для try dcast, но мы можем переместить это значение

Я пробовал это сделать, но, как и раньше, описываю, прежде чем возникнут проблемы с уровнями и двоичным кодом.

res = data.table::dcast(data.table::melt(dt1, id.vars='ID'), ID ~ variable + value, fun = length)

Я пытался получить этот результат.

result <- data.table::data.table('Col0' =  c(1, 0, 1, 0),'Col1_a' = c(1, 0, 0, 1),'Col1_b' = c(0, 1, 0, 0),'Col1_c' = c(0, 0, 1, 0),'Col2_t' = c(1, 0, 0, 0),'Col2_u' = c(0, 1, 0, 0),'Col2_v' = c(0, 0, 1, 0),'Col2_w' = c(0, 0, 0, 1), 'Col3_a' = c(1, 0, NA, 1),'Col3_b' = c(0, 1, NA, 0))

1 Ответ

0 голосов
/ 27 декабря 2018

Вот несколько альтернатив:

1) model.matrix Функция mm определяет матрицу модели на основе столбца nm, добавляя NA в качестве уровня.Примените это к каждому столбцу, кроме ID, и удалите все столбцы, которые либо имеют все ноль, либо имеют NA в названии.

mm <- function(nm) model.matrix(~.-1, setNames(list(addNA(dt1[[nm]])), nm))
res <- do.call("cbind", lapply(names(dt1)[-1], mm))
res[, colSums(res) > 0 & !grepl("NA", colnames(res)) ]

, давая:

  Col00 Col01 Col1a Col1b Col1c Col2t Col2u Col2v Col2w Col3a Col3b
1     0     1     1     0     0     1     0     0     0     1     0
2     1     0     0     1     0     0     1     0     0     0     1
3     0     1     0     0     1     0     0     1     0     0     0
4     1     0     1     0     0     0     0     0     1     1     0

2) melt / dcast Используя melt и dcast из data.table, преобразуйте каждый столбец в фактор и в конце удалите столбцы, имя которых включает NA.

m <- melt(replace(dt1, TRUE, lapply(dt1, factor)), id.vars='ID')
res = dcast(m, ID ~ variable + value, fun = length)
subset(res, select = !grepl("NA", colnames(res)) )[, -1]

, давая:

   Col0_0 Col0_1 Col1_a Col1_b Col1_c Col2_t Col2_u Col2_v Col2_w Col3_a Col3_b
1:      0      1      1      0      0      1      0      0      0      1      0
2:      1      0      0      1      0      0      1      0      0      0      1
3:      0      1      0      0      1      0      0      1      0      0      0
4:      1      0      1      0      0      0      0      0      1      1      0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...