Это несколько новых вопросов о статистическом программировании для R, на которые я не смог найти ответ в Интернете. Мой код данных помечен как "eitc" в приведенном ниже коде.
1) После загрузки во фрейм данных я хотел бы посмотреть сводную статистику,Я использовал функции:
eitc <- read.dta(file="/Users/Documents/eitc.dta")
summary(eitc)
sapply(eitc,mean,na.rm=TRUE) #for sample mean, min, max, etc.
Как мне найти сводную статистику по моему фрейму данных, когда выполнены определенные квалификации.Например, я хотел бы видеть сводную статистику по всем переменным, когда переменная "children" больше или равна 1. Эквивалентный код Stata:
summarize if children >= 1
2) Точно так же, как я могу найти конкретные параметры при соблюдении определенных требований?Например, я хочу найти среднее значение переменной «работа», когда обе переменные «post93» равны нулю, а переменная «anykids» равна 1. Эквивалентный код Stata:
mean work if post93==0 & anykids==1
3) В идеале, когда я запускаю сводную статистику выше, я хотел бы узнать, сколько наблюдений было включено в расчет / соответствует критериям.
4) Когда я читаю в моем фрейме данных, было бы также приятно видеть, сколько наблюдений включено в набор данных (и, возможно, сколько строк имеют пропущенные значения или "NA" в них).
5) Кроме того, я создаю фиктивные переменные, используя следующий код.Это правильный способ сделать это или есть более эффективный маршрут?
post93.dummy <- as.numeric(eitc$year>1993)
eitc=cbind(eitc,post93.dummy)