Вот данные, с которыми я работаю:
library(RCurl)
x <- getURL("https://raw.githubusercontent.com/dothemathonthatone/maps/master/main_test.csv")
maindf <- read.csv(text = x)
maindf_1 <- maindf %>%
dplyr::select(year, regional_schlüssel, age_group, fee_per_inc, fert_total, daily_hours, low_fee, middle_fee, high_fee)
head(maindf_1)
year regional_schlüssel fee_per_inc fert_total daily_hours low_fee middle_fee high_fee
2006 12246436188 0.000000000 0.02905331 8 1 0 0
2006 12246436188 0.002770760 0.02905331 8 1 0 0
2006 12246436188 0.003857333 0.02905331 8 1 0 0
2006 12246436188 0.004237633 0.02905331 8 0 1 0
2006 12246436188 0.004482112 0.02905331 8 0 1 0
2006 12246436188 0.005085077 0.02905331 8 0 1 0
Чтобы подготовить данные для регрессии панели, я хочу усреднить ненулевые значения в fee_per_inc
, 4-м столбце, в соответствии с последние три столбца; например,
year regional_schlüssel age_group fee_per_inc fert_total daily_hours low_fee middle_fee high_fee
2006 12246436188 -8 0.000000000 0.02905331 8 .003314047 0 0
2006 12246436188 -8 0.002770760 0.02905331 8 .003314047 0 0
2006 12246436188 -8 0.003857333 0.02905331 8 .003314047 0 0
2006 12246436188 -8 0.004237633 0.02905331 8 0 .004601607 0
2006 12246436188 -8 0.004482112 0.02905331 8 0 .004601607 0
2006 12246436188 -8 0.005085077 0.02905331 8 0 .004601607 0
и затем удалите нули в трех последних строках:
year regional_schlüssel age_group fee_per_inc fert_total daily_hours low_fee middle_fee high_fee
2006 12246436188 -8 0.000000000 0.02905331 8 .003314047 .004601607 0
2006 12246436188 -8 0.002770760 0.02905331 8 .003314047 .004601607 0
2006 12246436188 -8 0.003857333 0.02905331 8 .003314047 .004601607 0
за исключением того, что в этом примере в последней строке все еще есть нули. После этого я могу поместить fee_per_inc
, избыточные строки и go в регрессию панели.