Привет эксперты R здесь,
Я программист Stata, пытающийся изучать R. У меня есть фрейм данных, где каждый идентификатор строки имеет значения против него как df1:
df1 <- data.frame(name=c("John", "Mary", "Joe", "Tim", "Bob", "Pat"),
v1=c(14,2,3,4,14,1),
v2=c(21,6,19,31,16,5),
v3=c(32,10,22,33,27,30),
v4=c(42,17,45,39,34,35),
v5=c(98,35,66,0,78,99),
v6=c(117,49,0,0, 89,186))
значения в столбцах для каждого идентификатора посетителя находятся в диапазоне от 1 до 1000. В основном это дни, когда каждый идентификатор посетителя посещал врача в течение 1000 дней.Некоторые пациенты прекращают посещение после устранения симптомов, а некоторые пациенты продолжают прием лекарств и регулярно посещают их, как это предписано врачом.Некоторые пациенты начинают посещать снова через долгое время, если болезнь рецидивирует.
Я хочу создать разреженную матрицу всех идентификаторов, которые посещал врач от 1 до 1000 дней.Подскажите, пожалуйста, как создать разреженную матрицу.Это довольно просто и прямо в Stata, но я не могу найти путь в R.
Конечные результаты должны быть в форме:
name 1 2 3 4 5 6 10 14 16 17 19 21
John 1 1
Mary 1 1 1 1
Joe 1 1
После создания разреженной матрицы,Я должен предсказать, когда будет следующий визит пациента к врачу.Я планировал создать разреженную матрицу, затем создать вычисляемую переменную разницы между двумя последними посещениями и затем использовать для нее логистическую регрессию.Могут ли быть еще сгенерированы ключевые показатели эффективности для проведения тщательного анализа с использованием только данной информации?Может кто-нибудь предложить, если идея верна или есть лучший способ приблизиться к ней.
Заранее спасибо.