Как оптимизировать моделирование более чем одной переменной в R? - PullRequest
0 голосов
/ 26 мая 2020

У меня есть датафрейм, организованный как таковой: df <- dataframe (индивидуум, имя группы, Z1, Z2, Z3). В моем наборе данных каждый человек является членом группы. Меня интересует только определенное количество данных (например, 15000 из 25000). В моем наборе данных слишком много нулей. Я хочу применить два разных моделирования: </p>

  1. Чтобы найти все возможные комбинации «индивидуумов», где среднее значение (Z1) ~ 1, и найти диапазон для Z2 и Z3.
  2. Чтобы найти все возможные комбинации «индивидов», где среднее (Z1), среднее (Z2) и среднее (Z3) ~ 1

Гистограмма Z1 Гистограмма . Коробчатая диаграмма Z1 показывает слишком много выбросов Коробчатая диаграмма . Чтобы дать обзор моего набора данных:

Мин. 1st Qu. Среднее значение 3-го кв. Максимум. 0,000 0,010 0,060 1,854 0,470 108,130

Я попытался выполнить моделирование, используя функцию lapply и задав некоторые скорости моему набору данных (Z = Z1):

LO<- lapply(1:5000, function(i){sample(Z,15000,replace=TRUE, prob=1/(Z+8)+(0.2*Z))})
MEANS=unlist(lapply(LO, mean))
hist(MEANS)

Таким образом, мне нужно настроить "проблема" вручную, чтобы моя гистрограмма была сосредоточена на 1. Это хороший способ ответить на мою первую проблему? Тогда для второй проблемы, как я могу оптимизировать мою симуляцию на 3 переменных? Стоит ли использовать if-l oop? В качестве побочного вопроса: как я могу взвесить свой набор данных на основе популяции каждой группы (чем выше популяция, тем выше вероятность того, что люди будут выбраны из этой группы в моей выборке из 15000).

...