Загрузка очень широких и мелких данных в R (8M столбцов) - PullRequest
0 голосов
/ 12 июня 2018

Я пытаюсь загрузить файл с примерно 8 миллионами столбцов и 800 строк в R. Файл имеет размер 29 ГБ, и я на машине с 64 ГБ ОЗУ.Я пробовал read.table, read_delim и read_table, fread и scan.Все вылетает или выдает ошибку типа: C stack usage 29359129 is too close to the limit.

Вот примеры команд, все из которых приводят к сбою или ошибке стека.

my_data <- fread("<filename.ext>" sep=" ")
my_data <- read_table("<filename.ext>", col_names=TRUE)
my_data <- scan("<filename.ext>", what = "raw")

Я могу загрузить в транспонированной версиифайла просто отлично, но не может транспонировать его в R без сбоев.Здесь и на других сайтах есть много похожих вопросов о больших данных, но я не нашел ни одного работающего решения для очень больших данных, подобных этому.

Информация о файле:
Это файл PED, созданный PLINKдля геномного анализа.Подробную информацию о формате можно найти в разделе «Двоичные файлы PED» на этой странице: zzz.bwh.harvard.edu / plink / data.shtml

Как я могу получить это в R?Использование R необходимо для конкретного геномного анализа, который мне нужно выполнить.Я надеюсь избежать настройки распределенной системы хранения, такой как Hadoop, и не думаю, что это необходимо, поскольку я могу без проблем загрузить транспонирование файла.

Приемлемые решения могут включать загрузку транспонирования и транспонирование вR, но base::t приводит к сбою и transposeBigData не будет работать на этой версии R.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...