Умножение неравномерных наборов данных - PullRequest
0 голосов
/ 12 ноября 2018

Я пытаюсь связать журнал расстояний с тарифными ставками для разных стран, но мои фреймы данных имеют немного другое измерение.Первый фрейм данных

'data.frame':   265 obs. of  32 variables:

, а второй фрейм данных

'data.frame':   263 obs. of  32 variables:

Я не смог найти, где они различаются, но мой профессор говорит, что в STATA это обходные пути, которые должнытакже можно найти в R. Какие обходные пути вы бы использовали?

1 Ответ

0 голосов
/ 13 ноября 2018

Стандартный способ подготовки данных для использования в регрессии или где-либо еще - поместить их в один и тот же фрейм данных с помощью слияния. Вы можете отбросить строки, которые находятся в одной, а не в другой, или включить их и иметь NA в своих местах из меньшего набора данных. В регрессии наблюдения с NA будут выброшены, поэтому не имеет значения, какой вы выберете.

Скажем, First - это ваш фрейм данных с 265 наблюдениями, а Second - ваш фрейм данных с 263. В обоих фреймах данных у вас есть столбец с именем "Год", который вы будете использовать для сопоставления. Убедитесь, что в этом столбце отсутствуют пропущенные значения.

FinalData <- merge(First,Second,by="Year")

По умолчанию это удалит строки, отсутствующие в любом наборе данных. Затем выполните регрессию, используя FinalData в качестве ввода lm(), и у вас не будет ошибок.

...