Вменять разреженный набор данных из другой переменной (R, MICE) - PullRequest
0 голосов
/ 21 сентября 2018

У меня есть зависимая переменная временного ряда (месячный уровень воды), которая очень сильно коррелирует со второй переменной (месячные осадки).Это можно показать на основе анализа местоположений, где у нас много долгосрочных наблюдений (n> 500).Для моих целей я предполагаю, что изменение зависимой переменной равно изменению независимой переменной.

Учитывая это соотношение, я хочу предсказать уровни воды там, где известны осадки, но естьочень мало исторических наблюдений за уровнем воды ... скажем, n = 5 или около того.Используя пакет MICE в R, я случайно выбрал небольшие подвыборки долгосрочных данных об уровне воды и вменял недостающие переменные, используя z-показатель для переменной осадков без пропущенных записей.

mice(subset, method = "norm", maxit = 200)

Когда случайная выборка попадает в хороший диапазон наблюдений, которые выше и ниже среднего, она работает (даже удивительно) хорошо. вмененные данные - n = 5 - хорошее соответствие

Когда случайная выборка попадает в наблюдения только с одной стороны от среднего значения, все идет в ад. вмененные данные - n = 5 - плохая подгонка

Я знаю, что могу улучшить подгонку, увеличив n, но суть в том, чтобы попытаться вменять разреженный набор данных.Я чувствую, как будто я упускаю что-то в этом вменении, которое не в полной мере объясняет тот факт, что предиктор представляет собой набор из z оценок, который уже содержит информацию о среднем и SD данных.

Я бынравится улучшать или ограничивать вменение, чтобы z-оценка вмененных результатов была аналогична z-оценке осадков.

MICE может быть не лучшим способом сделать это, поэтому я открыт для любых предложений.

...