У меня есть набор данных, который показывает доход с течением времени около 100.000 компаний. У данных есть много других переменных, но ниже я пишу воспроизводимую версию упрощенного образца этого набора данных.
my_data <- data.frame(Identification = c("a","b","c","d"), treatment = c(1, 0 , 1, 0), year_creation = c("2010", "2009", "2008", "2009"), rev_2008 = c(NA, NA, 10, NA),
rev_2009 = c(NA,10, 20, 15), rev_2010 = c(02, 10, 25, 0), rev_2011 = c(14, 16, 0, 0),
size = c(2, 3, 5, 1))
Исходные данные приносят доход компаниям еще много лет. Однако, как вы можете видеть в этом упрощенном образце, у компаний разные даты входа и выхода (выживания) в моих данных, и это то, что беспокоит меня при проведении некоторого базового анализа.
Но, прежде чем Переходя к анализу, я сначала преобразовал этот набор данных в формат LONG, используя следующий код:
Long <- pivot_longer(my_data,
cols = c("rev_2008":"rev_2011"),
names_to = c(".value", "year"),
# names_prefix = "DateRange",
names_sep = "_")
Теперь я хотел бы выполнить некоторые базовые c корреляции между переменными 'rev' (доход), «размер» и «лечение». Затем я хотел бы запустить базовую регрессию OLS c между переменными «treatment» и «rev», контролируемыми «size». Но у меня есть несколько вопросов:
Как мне выполнить этот базовый c анализ, используя данные панели? Буквально, какие коды я мог бы использовать? Есть ли какой-нибудь пакет, который проще для выполнения этих типов анализа?
Самое главное и на самом деле, что меня беспокоит. Как мне работать с несколькими входами и выходами в моих данных? Должен ли я запускать корреляции и регрессии условно до даты вступления или условно для выживания фирм? Если да, как мне это сделать в R?