У меня есть зависимая переменная временного ряда (месячный уровень воды), которая очень сильно коррелирует со второй переменной (месячные осадки).Это можно показать на основе анализа местоположений, где у нас много долгосрочных наблюдений (n> 500).Для моих целей я предполагаю, что изменение зависимой переменной равно изменению независимой переменной.
Учитывая это соотношение, я хочу предсказать уровни воды там, где известны осадки, но естьочень мало исторических наблюдений за уровнем воды ... скажем, n = 5 или около того.Используя пакет MICE в R, я случайно выбрал небольшие подвыборки долгосрочных данных об уровне воды и вменял недостающие переменные, используя z-показатель для переменной осадков без пропущенных записей.
mice(subset, method = "norm", maxit = 200)
Когда случайная выборка попадает в хороший диапазон наблюдений, которые выше и ниже среднего, она работает (даже удивительно) хорошо. вмененные данные - n = 5 - хорошее соответствие
Когда случайная выборка попадает в наблюдения только с одной стороны от среднего значения, все идет в ад. вмененные данные - n = 5 - плохая подгонка
Я знаю, что могу улучшить подгонку, увеличив n, но суть в том, чтобы попытаться вменять разреженный набор данных.Я чувствую, как будто я упускаю что-то в этом вменении, которое не в полной мере объясняет тот факт, что предиктор представляет собой набор из z оценок, который уже содержит информацию о среднем и SD данных.
Я бынравится улучшать или ограничивать вменение, чтобы z-оценка вмененных результатов была аналогична z-оценке осадков.
MICE может быть не лучшим способом сделать это, поэтому я открыт для любых предложений.