Я хотел бы разбить большой каталог файлов на отдельные списки aprox. равный общий размер файла. Идея состоит в том, чтобы разбить огромный каталог, полный csv разных размеров, на списки файлов одинакового общего размера для дальнейшей обработки.
Воспроизведение поддельных файловых данных в R:
###reproduce fake file data (just the significant columns from file.info)
filedata <- data.frame(size=sample(c(20:4000000),10000),isdir=FALSE,stringsAsFactors = F)
rownames(filedata)<-paste0("MYDIR/mycsv",c(1:nrow(filedata)),".csv")
Выходными данными (в идеале) будут данные file.frame, разделенные, например, на десять фрагментов (переменное число) приблизительно равного размера файла. количество файлов:
nchunks <- 10
listofchunks <- function(split filedata into chunks by equal size and return as list of data frames)
###ideal output would be then chunk1, chunk2, etc. -chunk10 each with a unique list of files that where the total file size cumulatively is close as possible to the other chunks.
Спасибо!