Как запустить анализ корреляции и регрессии в панельных данных с несколькими входами и выходами? - PullRequest
0 голосов
/ 28 января

У меня есть набор данных, который показывает доход с течением времени около 100.000 компаний. У данных есть много других переменных, но ниже я пишу воспроизводимую версию упрощенного образца этого набора данных.

my_data <- data.frame(Identification = c("a","b","c","d"), treatment = c(1, 0 , 1, 0), year_creation = c("2010", "2009", "2008", "2009"), rev_2008 = c(NA, NA, 10, NA), 
         rev_2009 = c(NA,10, 20, 15), rev_2010 = c(02, 10, 25, 0), rev_2011 = c(14, 16, 0, 0),
         size = c(2, 3, 5, 1))

Исходные данные приносят доход компаниям еще много лет. Однако, как вы можете видеть в этом упрощенном образце, у компаний разные даты входа и выхода (выживания) в моих данных, и это то, что беспокоит меня при проведении некоторого базового анализа.

Но, прежде чем Переходя к анализу, я сначала преобразовал этот набор данных в формат LONG, используя следующий код:

Long <- pivot_longer(my_data,
         cols = c("rev_2008":"rev_2011"), 
         names_to = c(".value", "year"),
         # names_prefix = "DateRange",
         names_sep = "_")

Теперь я хотел бы выполнить некоторые базовые c корреляции между переменными 'rev' (доход), «размер» и «лечение». Затем я хотел бы запустить базовую регрессию OLS c между переменными «treatment» и «rev», контролируемыми «size». Но у меня есть несколько вопросов:

  1. Как мне выполнить этот базовый c анализ, используя данные панели? Буквально, какие коды я мог бы использовать? Есть ли какой-нибудь пакет, который проще для выполнения этих типов анализа?

  2. Самое главное и на самом деле, что меня беспокоит. Как мне работать с несколькими входами и выходами в моих данных? Должен ли я запускать корреляции и регрессии условно до даты вступления или условно для выживания фирм? Если да, как мне это сделать в R?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...