Я столкнулся с чем-то немного выше моего набора навыков.Я работаю с торговыми данными МВФ, которые состоят из данных между диадами стран.Набор данных МВФ состоит из «неупорядоченных дубликатов» записей, в которых каждая страна отдельно представляет данные о торговле.Однако из-за различных временных характеристик, систем записи, типа режима и т. Д. Существуют несоответствия между соответствующими значениями.Я пытаюсь манипулировать этими данными двумя способами:
- Назначить средние значения для дублированных диад.
- Назначить значения диад условно на основе отдельного экономического показателя или индекса развития(кому я больше доверяю?).
Существует несколько дискуссий по выявлению неупорядоченных дубликатов здесь , здесь , здесь ,и здесь но после пары дней поиска мне еще предстоит увидеть, что я пытаюсь сделать.
Вот пример необработанных данных.В действительности существует гораздо больше переменных и несколько сотен тысяч диад:
reporter<-c('USA','GER','AFG','FRA','CHN')
partner<-c('AFG','CHN','USA','CAN','GER')
year<-c(2010,2010,2010,2009,2010)
import<-c(-1000,-2000,-2400,-1200,-2000)
export<-c(2500,2200,1200,2900,2100)
rep_econ1<-c(28,32,12,25,19)
imf<-data.table(reporter,partner,year,import,export,rep_econ1)
imf
reporter partner year import export rep_econ1
1: USA AFG 2010 -1000 2500 28
2: GER CHN 2010 -2000 2200 32
3: AFG USA 2010 -2400 1200 12
4: FRA CAN 2009 -1200 2900 25
5: CHN GER 2010 -2000 2100 19
Дополнительная складка заключается в том, что import
и export
являются инверсиями друг друга между диадами, поэтому их необходимо сопоставлять иозначает абсолютное значение.
Для цели 1 получим data.table
:
Среднее
reporter partner year import export rep_econ1
USA AFG 2010 -1100 2450 28
GER CHN 2010 -2050 2100 32
AFG USA 2010 -2450 1100 12
FRA CAN 2009 -1200 2900 25
CHN GER 2010 -2100 2050 19
Для задачи 2:
Условно присвоить более высокий экономический показатель (rep_econ1
)
reporter partner year import export rep_econ1
USA AFG 2010 -1000 2500 28
GER CHN 2010 -2000 2200 32
AFG USA 2010 -2500 1000 12
FRA CAN 2009 -1200 2900 25
CHN GER 2010 -2200 2000 19
Возможно, не все диады представлены дважды, поэтому я включил сольную запись.Я предпочитаю data.table
, но я пойду со всем, что приведет меня по правильному пути.
Спасибо за ваше время.