Мне предоставили несколько очень неудобно отформатированных данных в Excel, которые мне нужно изменить, чтобы они подходили для анализа выживаемости в R.
Я загрузил извлечение данных на диск Google: https://drive.google.com/open?id=1ret3bCDCYPDALQ16YBloaeopfl2-qVbpИсходный фрейм данных содержит около 2100 наблюдений и 950 переменных
Вот базовый фрейм данных:
my.data<-data.frame(
ID=c( "", "","C8477","C5273","C5566"),
LR=c("2012Y","State:FL",5,6,8),
LR=c("2012Y","State:AZ",5,8,10),
LR=c("2011Y","State:FL",7,2,1)
)
my.data
# ID LR LR.1 LR.2
# 1 2012Y 2012Y 2011Y
# 2 State:FL State:AZ State:FL
# 3 C8477 5 5 7
# 4 C5273 6 8 2
# 5 C5566 8 10 1
Все столбцы имеют одинаковое имя "LR". Я не знаю, будет ли это проблемой позже ...
Год указан в строке 1, и соответствующее состояние наблюдений произошло в строке 2.
В качестве вывода мне нужноу меня есть некоторые данные панели, с которыми я работаю в последующем анализе выживания.
my.data<-data.frame(
ID=c("C8477","C5273","C5566"),
Year=c("2012","2012","2011"),
State=c("FL","AZ","FL"),LR=c(5,8,1)
)
my.data
# ID Year State LR
# 1 C8477 2012 FL 5
# 2 C5273 2012 AZ 8
# 3 C5566 2011 FL 1
Я поиграл с функцией изменения формы и функциями seq, но это не поможет мне двигаться в правильном направлении, так как фрейм данных так странно расположен.