Существуют ли методы в R, которые могут обрабатывать несбалансированные данные панели для задач классификации? Смотрите данные ниже. Я пытаюсь предсказать вероятность сбоя (столбец C), используя все другие доступные данные. Предположим, у меня есть разные группы юнитов (столбец B) с разными интервалами времени (столбец A). Я хотел бы использовать регрессионную модель со смешанным эффектом логистики c, но поскольку интервалы и частоты различны в каждой группе, данные сильно разбалансированы. Я рассмотрел создание новых функций для извлечения важных элементов столбца даты (например, день недели, день недели / выходные, количество раз, когда группа появлялась во временном ряду, и т. Д. c.), Но я не хочу потенциально потерять продольный аспект данных.
Существует ли алгоритм машинного обучения, который лучше подходит для этой задачи?
![Sample Data](https://i.stack.imgur.com/oYL5C.png%5C)
редактировать: в реальном наборе данных имеется только один сбой на группу, но в большинстве случаев сбоев на группу нет. Кроме того, в случае сбоя это произойдет в последний день, указанный для этой группы.