Для сохранения одного большого объекта в R, saveRDS или сохранить быстрее? - PullRequest
0 голосов
/ 21 мая 2018

У меня сейчас очень большой массив (500 элементов, каждый с матрицей 1000 на 20).Я использовал saveRDS для сохранения объектов.Однако это занимает очень много времени.Мне интересно, если save() быстрее, или есть варианты в каждом из них, чтобы сохранить вещи быстрее?Спасибо.

1 Ответ

0 голосов
/ 21 мая 2018

Вы всегда можете немного произнести в источниках:

saveRDS():

function (object, file = "", ascii = FALSE, version = NULL, compress = TRUE, 
    refhook = NULL) {}
...
  .Internal(serializeToConn(object, con, ascii, version, refhook))
}

В конце концов: https://github.com/wch/r-source/blob/2c3e0e757e81ca23c34da8dde4ff925bd9d275f0/src/main/serialize.c#L2471-L2536

save():

function (..., list = character(), file = stop("'file' must be specified"), 
    ascii = FALSE, version = NULL, envir = parent.frame(), compress = isTRUE(!ascii), 
    compression_level, eval.promises = TRUE, precheck = TRUE) {
...
  .Internal(saveToConn(list, con, ascii, version, envir,  eval.promises))
}

В конечном итоге: https://github.com/wch/r-source/blob/6ac8f58c608337200f85ea47cba2abc717be6eb5/src/main/saveload.c#L1973-L2041

ИЛИ

дать ему эталон (список, если предполагается, что это список объектов матрицы):

library(microbenchmark)

set.seed(0)

lapply(1:500, function(i) {
  matrix(sample(20*1000), nrow = 1000, ncol = 20)
}) -> matrix_list

print(str(matrix_list, list.len=5))
## List of 500
##  $ : int [1:1000, 1:20] 17934 5310 7442 11456 18161 4033 17963 18887 13211 12577 ...
##  $ : int [1:1000, 1:20] 2227 4212 2296 2907 6198 3005 10531 2358 9543 15374 ...
##  $ : int [1:1000, 1:20] 5969 11861 11057 11933 7852 17959 14794 530 16811 17003 ...
##  $ : int [1:1000, 1:20] 1073 14634 12948 16282 2087 6687 7992 7640 18482 8043 ...
##  $ : int [1:1000, 1:20] 10900 8249 6059 10767 15541 17139 11663 9010 576 14900 ...
##   [list output truncated]
## NULL

pryr::object_size(matrix_list)
## 40.1 MB

microbenchmark(
  save = save(matrix_list, file = "/tmp/out.rda"),
  saveRDS = saveRDS(matrix_list, file = "/tmp/out.rds"),
  times = 5,
  control = list(warmup = 2)
) -> mb

mb
## Unit: seconds
##     expr      min       lq     mean   median       uq       max neval
##     save 8.571138 8.578461 8.747248 8.650629 8.665557  9.270453     5
##  saveRDS 8.647355 8.655231 9.298947 8.684998 8.772102 11.735052     5

Вы можетепоиграйте с настройками compress & compression_level в save() и level в gzcon() для использования в saveRDS() с compress, чтобы увидеть, помогает ли изменение или удаление сжатия.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...