Имея только 4 ГБ ОЗУ (под управлением Windows 10, так что примерно 2 или более реально это 1 ГБ), я должен был быть очень осторожным с распределением.
Я использую data.table почти исключительно.
Функция 'fread' позволяет вам импортировать информацию по именам полей при импорте; импортируйте только те поля, которые действительно нужны для начала. Если вы используете чтение базы R, обнуляйте ложные столбцы сразу после импорта.
Как подсказывает 42- , когда это возможно, я буду помещать их в столбцы сразу после импорта информации.
Я часто rm () объекты из среды, как только они больше не нужны, например, на следующей строке после использования их для подстановки чего-то другого и вызова gc ().
'fread' и 'fwrite' из data.table могут быть очень быстрыми по сравнению с основанием R для чтения и записи.
Как подсказывает kpierce8 , я почти всегда переписываю все из окружения и перезаписываю его обратно, даже с тысячами / сотнями тысяч крошечных файлов, через которые можно пройти. Это не только обеспечивает чистоту среды и низкое распределение памяти, но, возможно, из-за серьезного недостатка доступной оперативной памяти, R имеет склонность к частым сбоям на моем компьютере; действительно часто. Резервное копирование информации на самом диске в процессе выполнения кода на разных этапах означает, что мне не нужно начинать с самого начала, если он падает.
По состоянию на 2017 год, я думаю, самые быстрые твердотельные накопители работают со скоростью несколько ГБ в секунду через порт M2. У меня действительно базовый твердотельный накопитель Kingston V300 (550 МБ / с) емкостью 50 ГБ, который я использую в качестве основного (на нем установлены Windows и R). Я храню всю основную информацию на дешевом 500-гигабайтном диске WD. Я перемещаю наборы данных в SSD, когда начинаю над ними работать. Это, в сочетании с «fread» и «fwrite» все работало замечательно. Я пытался использовать 'FF', но предпочитаю первое. Скорость чтения / записи 4K может создать проблемы с этим; Резервное копирование четверти миллиона файлов размером 1 КБ (стоимостью 250 МБ) с SSD на диск может занять несколько часов. Насколько я знаю, еще нет доступных пакетов R, которые могли бы автоматически оптимизировать процесс «чанкификации»; например посмотрите, сколько у пользователя оперативной памяти, проверьте скорость чтения / записи ОЗУ / всех подключенных дисков, а затем предложите оптимальный протокол «чанкификации». Это может привести к значительным улучшениям рабочего процесса / оптимизации ресурсов; например разделить его на ... МБ для оперативной памяти -> разделить на ... МБ для SSD -> разделить на ... МБ на блюде -> разделить на ... МБ на ленте. Он мог бы забрать наборы данных заранее, чтобы дать ему более реалистичный измерительный стержень для работы.
Множество проблем, над которыми я работал в R, включают в себя формирование пар комбинаций и перестановок, троек и т. Д., Что делает ограничение ограниченного объема ОЗУ более ограничительным, поскольку они часто по крайней мере экспоненциально расширяются какой-то момент. Это заставило меня сосредоточиться на качестве , а не на количестве информации, поступающей в них с самого начала, вместо того, чтобы пытаться очистить ее впоследствии, и на последовательности операции по подготовке информации для начала (начиная с самой простой операции и увеличивая сложность); например подмножество, затем объединить / объединить, затем сформировать комбинации / перестановки и т.д.
Кажется, в некоторых случаях использование чтения и записи базы R имеет некоторые преимущества. Например, обнаружение ошибок в 'fread' настолько хорошо, что может быть трудно попытаться получить действительно грязную информацию в R для начала, чтобы очистить ее. Base R также выглядит намного проще, если вы используете Linux. Кажется, что Base R отлично работает в Linux, Windows 10 использует ~ 20 ГБ дискового пространства, тогда как Ubuntu требуется всего несколько ГБ, а оперативной памяти, необходимой для Ubuntu, немного меньше. Но я заметил большое количество предупреждений и ошибок при установке сторонних пакетов в (L) Ubuntu. Я бы не рекомендовал уходить слишком далеко от (L) Ubuntu или других стандартных дистрибутивов с Linux, так как вы можете потерять столько общей совместимости, что делает процесс практически бессмысленным (я думаю, что единство должно быть отменено в Ubuntu с 2017 ). Я понимаю, что с некоторыми пользователями Linux это не получится, но некоторые пользовательские дистрибутивы не имеют смысла, кроме новизны (я провел годы, используя только Linux).
Надеюсь, некоторые из них могут помочь другим.