В настоящее время я работаю над вменением 10 больших наборов данных (сначала создав матрицу прогноза с корреляцией 0,3, dfpred03
) для мышей в R, и у меня возникло много проблем, таких как:
imptest <- mice(df, m=1, maxit = 1, method='cart',predictorMatrix=dfpred03)
iter imp variable
1 1 VAR1 VAR2 VAR3 VAR4Error: cannot allocate vector of size 446 Kb
Error during wrapup: cannot allocate vector of size 3.6 Mb
Я понимаю, что мне придется пойти на некоторые уступки, но, поскольку я не уверен, что является узким местом, я не знаю, на какие уступки пойти.
Есть ли документация о том, как mice
в R
использует данные?
Мои самые важные вопросы:
РЕДАКТИРОВАНИЕ: Как я могу адаптировать матрицу предиктора для того, чтобы процесс вменения потреблял меньше памяти? Я подумываю установить переменные, в которых суммы как для строк, так и для столбцов равны нулю, но затем у меня останутся значения NA. Еще я мог бы удалить эти переменные и другие переменные с низким уровнем наблюдения.
Если мне удастся выполнить одну итерацию набора данных, будет ли это означать, что я могу увеличить maxit
и m
, поскольку максимальное использование памяти находится в итерации?
Используется ли большая часть памяти из-за количества предикторов или количества пропусков в наблюдениях (и, следовательно, количества наблюдений)?
В более общем смысле, где находится всплеск использования памяти?