объединение наборов данных в r по дате и месту - PullRequest
0 голосов
/ 29 апреля 2020

Говоря в общих чертах, моя цель заключается в следующем:

У меня есть набор данных с опрошенными домохозяйствами, содержащий широту, долготу и дату опроса. У меня есть другой набор данных с тоннами ежедневных средних наблюдений за осадками и темпами, которые описываются широтой, долготой и датой. Для каждого домохозяйства в первом наборе данных мне нужны географически согласованные данные о погоде за три года до года обследования и года обследования, где каждое наблюдение за погодой для этого домохозяйства описывается его датой. (так что все дни 2010, 2009, 2008 и 2007 гг.)

Это два фрейма данных, с которыми я работаю

> head(final_data)
     lon   lat     date             temp                 prec
1  28.75 -11.5 20070101 293.579498291016 2.77396757155657e-05
2 29.375 -11.5 20070101 294.444732666016  2.7455234885565e-05
3     30 -11.5 20070101 294.710357666016 3.44862528436352e-05
4 30.625 -11.5 20070101 294.313232421875 3.56808304786682e-05
5  31.25 -11.5 20070101 292.894287109375 4.52742278866936e-05
6 31.875 -11.5 20070101 293.976318359375 3.65121923096012e-05

, то есть данные о погоде ^

> head(hh_merged_wmatch_trim)
           hhid_df    lat_df   lon_df month day year       date
1 0101014002017101 -5.085751 35.85439    11  11 2010 2010-11-11
2 0101014002028401 -5.085751 35.85439    11  11 2010 2010-11-11
3 0101014002029701 -5.085751 35.85439    11  11 2010 2010-11-11
4 0101014002029704 -6.857325 39.26984    11   5 2010 2010-11-05
5 0101014002040901 -5.085751 35.85439    11  11 2010 2010-11-11
6 0101014002047101 -5.085751 35.85439    11  11 2010 2010-11-11

и есть данные о домохозяйстве ^

Таким образом, конечный продукт может быть там, где у каждого домохозяйства есть переменная для каждой даты, и каждое из них содержит наблюдение за осадками и температурой:

> head(theGOAL)
  hhid lat lon date of survey  20070101      20070102 ~1000 more days
1    0   0   0              0 rainy/hot cloudy/hotter               0

ИЛИ, возможно, должна быть переменная, обозначающая температуру и количество осадков по отдельности:

> head(theGOAL)
  hhid lat lon date of survey 20070101(precip) 20070101(temp) ~1000 more days
1    0   0   0              0            rainy            hot               0

Один улов заключается в том, что важно, чтобы R все еще распознавал дату каждого наблюдения. В конечном счете мне нужно будет создавать ежемесячные средства для данных о погоде за каждый год, основываясь на 5 месяцах после даты опроса домохозяйства с географической привязкой. Например, если человек был опрошен 15 мая 2010 года, мне нужны месячные средние значения температуры и количества осадков по 16 мая-15 июня, 16 июня-15 августа, 15 августа-15 августа и 15 сентября-15 октября 2007, 2008 и 2009 годов. конечный пункт назначения - это 30 значений для каждого домохозяйства (2 показателя погоды * 3 года * 5 месяцев = 30 значений).

Любые рекомендации приветствуются. У меня есть опыт пространственного сопоставления и работы с временными рядами, но я не могу понять, как осуществить все это сразу!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...