Использование памяти вменения мышам в R - PullRequest
0 голосов
/ 18 ноября 2018

В настоящее время я работаю над вменением 10 больших наборов данных (сначала создав матрицу прогноза с корреляцией 0,3, dfpred03) для мышей в R, и у меня возникло много проблем, таких как:

imptest <- mice(df, m=1, maxit = 1, method='cart',predictorMatrix=dfpred03)

 iter imp variable
  1   1  VAR1 VAR2  VAR3  VAR4Error: cannot allocate vector of size 446 Kb
Error during wrapup: cannot allocate vector of size 3.6 Mb

Я понимаю, что мне придется пойти на некоторые уступки, но, поскольку я не уверен, что является узким местом, я не знаю, на какие уступки пойти.

Есть ли документация о том, как mice в R использует данные?

Мои самые важные вопросы:

  1. РЕДАКТИРОВАНИЕ: Как я могу адаптировать матрицу предиктора для того, чтобы процесс вменения потреблял меньше памяти? Я подумываю установить переменные, в которых суммы как для строк, так и для столбцов равны нулю, но затем у меня останутся значения NA. Еще я мог бы удалить эти переменные и другие переменные с низким уровнем наблюдения.

  2. Если мне удастся выполнить одну итерацию набора данных, будет ли это означать, что я могу увеличить maxit и m, поскольку максимальное использование памяти находится в итерации?

  3. Используется ли большая часть памяти из-за количества предикторов или количества пропусков в наблюдениях (и, следовательно, количества наблюдений)?

  4. В более общем смысле, где находится всплеск использования памяти?

...