Зазоры в статистике r: Какова подходящая структура данных для оценки параметров в системе уравнений с> 1000 переменных? - PullRequest
1 голос
/ 25 апреля 2019

Я получил систему уравнений, похожую на:

y = t1 * x1 + t2 * x2 + t3 * x3 ....

Где x - счетчик некоторых действий, x1 = activtiy1, x2 = активность2 и т. Д. ... y - общее время, необходимое для всех этих действий.

Я получил таблицу со столбцами: y, x1, x2, x3, [...] и одну строку для каждой записи данных. Таким образом, каждая строка моей таблицы - это одно уравнение. Моя цель - рассчитать диапазон вероятности для времени t1, t2, ... и т. Д., Который необходим для выполнения действий.

Мне удалось сгенерировать модель зазубрин (с использованием пакетов runjags в r statistics / r studio) и получил некоторые результаты. Поэтому я сгруппировал действия, поэтому я получил только 10 категорий действий, которые я суммировал, что мой код становится короче

В модели код выглядит так:

time.z[i] ~ dnorm(mu[i], 1/sigma[organizationalunit.int[i]]^2)

mu[i] <- c.organizationalunit[organizationalunit.int[i]] +
       beta.x1 * x1[i] +
       beta.x2 * x2[i] +
       beta.x3 * x3[i] +
       beta.x4 * x4[i] +
       [...]

Теперь я хочу рассчитать его для каждой деятельности, а не для групп действий. Это увеличит количество столбцов (и число переменных в уравнении) примерно с 10-15 до 1000-1500. Я не думаю, что уместно написать модель, как в примере выше, для> 1000 переменных в уравнении.

Проблема в том, что y всегда является результатом целой строки. Если я изменю структуру таблицы, с которой я работаю, на столбцы, такие как: y, идентификатор активности, счетчик активности

Это сделало бы модель намного короче, НО: я получил значение y только для целой строки, как показано в первом примере. Как бороться с этой проблемой? Буду очень благодарен за любой совет! Приветствуются даже рекомендации по другим языкам программирования или методам расчета.

Спасибо!

...