Question

У меня проблемы с фреймом данных, и я сам не смог решить эту проблему:
фрейм данных имеет произвольные свойства в виде столбцов и каждая строка представляет один набор данных .

Вопрос:
Как избавиться от столбцов, где для ALL строк значение равно NA ?

mnel · Answer 1 · 27 сентября 2012

Два подхода, предложенных до сих пор, терпят неудачу с большими наборами данных, поскольку (среди прочих проблем с памятью) они создают is.na(df), который будет объектом того же размера, что и df.

Вот два подхода, которые более эффективны при использовании памяти и времени

Подход с использованием Filter

Filter(function(x)!all(is.na(x)), df)

и подход с использованием data.table (для общего времени и эффективности использования памяти)

library(data.table)
DT <- as.data.table(df)
DT[,which(unlist(lapply(DT, function(x)!all(is.na(x))))),with=F]

примеры использования больших данных (30 столбцов, 1e6 строк)

big_data <- replicate(10, data.frame(rep(NA, 1e6), sample(c(1:8,NA),1e6,T), sample(250,1e6,T)),simplify=F)
bd <- do.call(data.frame,big_data)
names(bd) <- paste0('X',seq_len(30))
DT <- as.data.table(bd)

system.time({df1 <- bd[,colSums(is.na(bd) < nrow(bd))]})
# error -- can't allocate vector of size ...
system.time({df2 <- bd[, !apply(is.na(bd), 2, all)]})
# error -- can't allocate vector of size ...
system.time({df3 <- Filter(function(x)!all(is.na(x)), bd)})
## user  system elapsed 
## 0.26    0.03    0.29 
system.time({DT1 <- DT[,which(unlist(lapply(DT, function(x)!all(is.na(x))))),with=F]})
## user  system elapsed 
## 0.14    0.03    0.18

zack · Answer 2 · 14 мая 2018

dplyr теперь имеет глагол select_if, который может быть полезен здесь:

library(dplyr)
temp <- data.frame(x = 1:5, y = c(1,2,NA,4, 5), z = rep(NA, 5))
not_all_na <- function(x) any(!is.na(x))
not_any_na <- function(x) all(!is.na(x))

> temp
  x  y  z
1 1  1 NA
2 2  2 NA
3 3 NA NA
4 4  4 NA
5 5  5 NA

> temp %>% select_if(not_all_na)
  x  y
1 1  1
2 2  2
3 3 NA
4 4  4
5 5  5

> temp %>% select_if(not_any_na)
  x
1 1
2 2
3 3
4 4
5 5

mropa · Answer 3 · 15 апреля 2010

Другой способ - использовать функцию apply().

Если у вас есть data.frame

df <- data.frame (var1 = c(1:7,NA),
                  var2 = c(1,2,1,3,4,NA,NA,9),
                  var3 = c(NA)
                  )

тогда вы можете использовать apply(), чтобы увидеть, какие столбцы соответствуют вашему условию, и поэтому вы можете просто сделать то же подмножество, что и в ответе Мусы, только с apply подходом.

> !apply (is.na(df), 2, all)
 var1  var2  var3 
 TRUE  TRUE FALSE 

> df[, !apply(is.na(df), 2, all)]
  var1 var2
1    1    1
2    2    2
3    3    1
4    4    3
5    5    4
6    6   NA
7    7   NA
8   NA    9

André.B · Answer 4 · 15 мая 2019

Поздно к игре, но вы также можете использовать пакет janitor. Эта функция удалит все столбцы, которые являются NA, и может быть изменена для удаления строк, которые также являются NA.

df <- janitor::remove_empty(df, which = "cols")

jeromeResearch · Answer 5 · 16 ноября 2018

Принятый ответ не работает с нечисловыми столбцами. Из этого ответа следующие работают со столбцами, содержащими разные типы данных

Filter(function(x) !all(is.na(x)), df)

Luis M. Nieves · Answer 6 · 21 июля 2015

Надеюсь, это тоже может помочь.Это может быть сделано в одну команду, но мне было легче читать, разделив его на две команды.Я сделал функцию со следующей инструкцией и работал молниеносно.

naColsRemoval = function (DataTable) { na.cols = DataTable [ , .( which ( apply ( is.na ( .SD ) , 2 , all ) ) )] DataTable [ , unlist (na.cols) := NULL , with = F] }

.SD позволит ограничить проверку частью таблицы, если вы хотите, но это займетвся таблица как

Удалить столбцы из кадра данных, где ВСЕ значения равны NA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

примеры использования больших данных (30 столбцов, 1e6 строк)

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить столбцы из кадра данных, где ВСЕ значения равны NA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

примеры использования больших данных (30 столбцов, 1e6 строк)

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы