Говоря в общих чертах, моя цель заключается в следующем:
У меня есть набор данных с опрошенными домохозяйствами, содержащий широту, долготу и дату опроса. У меня есть другой набор данных с тоннами ежедневных средних наблюдений за осадками и темпами, которые описываются широтой, долготой и датой. Для каждого домохозяйства в первом наборе данных мне нужны географически согласованные данные о погоде за три года до года обследования и года обследования, где каждое наблюдение за погодой для этого домохозяйства описывается его датой. (так что все дни 2010, 2009, 2008 и 2007 гг.)
Это два фрейма данных, с которыми я работаю
> head(final_data)
lon lat date temp prec
1 28.75 -11.5 20070101 293.579498291016 2.77396757155657e-05
2 29.375 -11.5 20070101 294.444732666016 2.7455234885565e-05
3 30 -11.5 20070101 294.710357666016 3.44862528436352e-05
4 30.625 -11.5 20070101 294.313232421875 3.56808304786682e-05
5 31.25 -11.5 20070101 292.894287109375 4.52742278866936e-05
6 31.875 -11.5 20070101 293.976318359375 3.65121923096012e-05
, то есть данные о погоде ^
> head(hh_merged_wmatch_trim)
hhid_df lat_df lon_df month day year date
1 0101014002017101 -5.085751 35.85439 11 11 2010 2010-11-11
2 0101014002028401 -5.085751 35.85439 11 11 2010 2010-11-11
3 0101014002029701 -5.085751 35.85439 11 11 2010 2010-11-11
4 0101014002029704 -6.857325 39.26984 11 5 2010 2010-11-05
5 0101014002040901 -5.085751 35.85439 11 11 2010 2010-11-11
6 0101014002047101 -5.085751 35.85439 11 11 2010 2010-11-11
и есть данные о домохозяйстве ^
Таким образом, конечный продукт может быть там, где у каждого домохозяйства есть переменная для каждой даты, и каждое из них содержит наблюдение за осадками и температурой:
> head(theGOAL)
hhid lat lon date of survey 20070101 20070102 ~1000 more days
1 0 0 0 0 rainy/hot cloudy/hotter 0
ИЛИ, возможно, должна быть переменная, обозначающая температуру и количество осадков по отдельности:
> head(theGOAL)
hhid lat lon date of survey 20070101(precip) 20070101(temp) ~1000 more days
1 0 0 0 0 rainy hot 0
Один улов заключается в том, что важно, чтобы R все еще распознавал дату каждого наблюдения. В конечном счете мне нужно будет создавать ежемесячные средства для данных о погоде за каждый год, основываясь на 5 месяцах после даты опроса домохозяйства с географической привязкой. Например, если человек был опрошен 15 мая 2010 года, мне нужны месячные средние значения температуры и количества осадков по 16 мая-15 июня, 16 июня-15 августа, 15 августа-15 августа и 15 сентября-15 октября 2007, 2008 и 2009 годов. конечный пункт назначения - это 30 значений для каждого домохозяйства (2 показателя погоды * 3 года * 5 месяцев = 30 значений).
Любые рекомендации приветствуются. У меня есть опыт пространственного сопоставления и работы с временными рядами, но я не могу понять, как осуществить все это сразу!