Самый короткий ответ - вы начинаете с набора пакетов tidyverse. group_by()
от dplyr очень эффективен для вычисления значений с некоторым коэффициентом. Мне кажется, что у вас уже есть данные в аккуратной форме, которая лучше всего работает с фреймворком tidyverse, поскольку позволяет легко векторизовать операции над data.frame. Ознакомьтесь с основными пакетами, которые они могут предложить, и их обзорами здесь . Начните с более простых моделей, таких как lm()
, а затем, если возникнет необходимость, переходите к более продвинутым. Какую из переменных вы собираетесь использовать в качестве предикторов?
Независимо от того, какую модель вы выберете, после построения соответствующей вы можете использовать встроенную predict()
вместе с функцией group_by()
. Подробнее о basi c предсказании здесь .
Кстати, я не вижу набора данных, о котором вы говорите, только его описание. Не могли бы вы дать ссылку на репрезентативный образец? Это позволило бы мне дать более глубокое понимание.