R загрузить / преобразовать большие данные - PullRequest
0 голосов
/ 06 октября 2019

Я работаю с большими наборами данных в R и хочу найти более быстрый способ его загрузки и преобразования. Один объем данных составляет 50 ГБ, и я использую пакет убежища для его загрузки (это формат dta). Другой - 20 ГБ, и я использую read_csv, чтобы загрузить его. У меня есть доступ к серверу с 70+ ядрами, и я не знаю, как его использовать, чтобы этот код работал быстрее. Я просто запускаю этот код с помощью стандартных команд, но загрузка данных занимает много времени. Большинство уроков по параллельной обработке, которые я читал, фокусируются только на использовании ядер для выполнения циклов, но мне нужно только выполнять преобразования данных с использованием dplyr и некоторого базового статистического моделирования (lm). Я слышал об использовании SQL для больших данных. Проблема заключается в том, что этот анализ делается для академических целей, поэтому у меня нет доступа к серверу SQL. Есть ли способ использовать преимущества этих ядер для ускорения стандартного R-кодирования? В этом случае код импортирует и обрабатывает данные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...