R в основном работает полностью в памяти. Это означает, что если размер фрейма данных, полученного в результате чтения CSV, превысит доступную оперативную память, попытка его чтения составит sh R. Одним из вариантов здесь будет использование инструмента, более подходящего для размещения таких больших данных. набор. База данных является одним из вариантов. Вы можете загрузить свои данные в базу данных, а затем получить к ним доступ из R с помощью соответствующего пакета.
Если вы решите, что вам действительно нужно работать со всем набором, то большинство реляционных баз данных, вероятно, можно будет работать здесь. Например, MySQL является опцией, и существует пакет RMySQL
, который может взаимодействовать с базой данных MySQL.
Однако , вам может даже не понадобиться использовать весь набор данных одновременно. Если вы планируете выполнить некоторые статистические вычисления для своего набора данных, и существует равномерное или случайное распределение данных относительно номера строки в файле CSV, вы можете просто прочитать подмножество этих данных в R. Вот один из способов для выборки каждой N-й строки из входного файла. Используя в качестве примера файл объемом 7,7 ГБ, если бы вы читали только каждую 10-ю строку, у вас получился бы фрейм данных 770 МБ (примерно), который должен находиться в пределах памяти вашей установки R.