Несбалансированное панельное машинное обучение в R - PullRequest
0 голосов
/ 25 января 2020

Существуют ли методы в R, которые могут обрабатывать несбалансированные данные панели для задач классификации? Смотрите данные ниже. Я пытаюсь предсказать вероятность сбоя (столбец C), используя все другие доступные данные. Предположим, у меня есть разные группы юнитов (столбец B) с разными интервалами времени (столбец A). Я хотел бы использовать регрессионную модель со смешанным эффектом логистики c, но поскольку интервалы и частоты различны в каждой группе, данные сильно разбалансированы. Я рассмотрел создание новых функций для извлечения важных элементов столбца даты (например, день недели, день недели / выходные, количество раз, когда группа появлялась во временном ряду, и т. Д. c.), Но я не хочу потенциально потерять продольный аспект данных.

Существует ли алгоритм машинного обучения, который лучше подходит для этой задачи?

Sample Data

редактировать: в реальном наборе данных имеется только один сбой на группу, но в большинстве случаев сбоев на группу нет. Кроме того, в случае сбоя это произойдет в последний день, указанный для этой группы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...