Я пытаюсь загрузить файл с примерно 8 миллионами столбцов и 800 строк в R. Файл имеет размер 29 ГБ, и я на машине с 64 ГБ ОЗУ.Я пробовал read.table, read_delim и read_table, fread и scan.Все вылетает или выдает ошибку типа: C stack usage 29359129 is too close to the limit.
Вот примеры команд, все из которых приводят к сбою или ошибке стека.
my_data <- fread("<filename.ext>" sep=" ")
my_data <- read_table("<filename.ext>", col_names=TRUE)
my_data <- scan("<filename.ext>", what = "raw")
Я могу загрузить в транспонированной версиифайла просто отлично, но не может транспонировать его в R без сбоев.Здесь и на других сайтах есть много похожих вопросов о больших данных, но я не нашел ни одного работающего решения для очень больших данных, подобных этому.
Информация о файле:
Это файл PED, созданный PLINKдля геномного анализа.Подробную информацию о формате можно найти в разделе «Двоичные файлы PED» на этой странице: zzz.bwh.harvard.edu / plink / data.shtml
Как я могу получить это в R?Использование R необходимо для конкретного геномного анализа, который мне нужно выполнить.Я надеюсь избежать настройки распределенной системы хранения, такой как Hadoop, и не думаю, что это необходимо, поскольку я могу без проблем загрузить транспонирование файла.
Приемлемые решения могут включать загрузку транспонирования и транспонирование вR, но base::t
приводит к сбою и transposeBigData
не будет работать на этой версии R.