удалить строку со значением nan - PullRequest
26 голосов
/ 11 мая 2011

скажем, например, у меня есть эти данные:

data <- c(1,2,3,4,5,6,NaN,5,9,NaN,23,9)
attr(data,"dim") <- c(6,2)
data

     [,1] [,2]
[1,]    1  NaN
[2,]    2    5
[3,]    3    9
[4,]    4  NaN
[5,]    5   23
[6,]    6    9

Теперь я хочу удалить строки со значениями NaN: строки 1 и 4. Но я не знаю, где находятся эти строки, если это набор данных из 100 000+ строк, поэтому мне нужно найти их с помощью функции и удалить всю строку.

Кто-нибудь может указать мне правильное направление?

Ответы [ 2 ]

41 голосов
/ 11 мая 2011

Функция complete.cases скажет вам, где находятся строки, которые вам нужны:

data <- matrix(c(1,2,3,4,5,6,NaN,5,9,NaN,23,9), ncol=2)
data[complete.cases(data), ]

     [,1] [,2]
[1,]    2    5
[2,]    3    9
[3,]    5   23
[4,]    6    9
5 голосов
/ 11 мая 2011

DATA

data <- matrix(rnorm(100000000), ncol=10000)
idx <- sample(1:10000,100)
idy <- sample(1:10000,100)
data[idx,idy] <- NaN

FUNCTION

foo <- function(d=data) d[apply(d,2,function(x) any(is.nan(x))),]
*

Runtimes 1007 *

> system.time(data[complete.cases(data),])
   user  system elapsed 
   3.53    0.12    3.65 

> system.time(foo(data))
   user  system elapsed 
   2.37    0.09    2.46 
...