Я пытаюсь построить классификационную прогностическую модель с сильными зависимыми наблюдениями в данных. Проще говоря, данные фиксируют историю аудита группы компаний. Для каждой компании у нас есть результаты аудита аудита, которые наблюдаются в определенные моменты времени, и цель состоит в том, чтобы предсказать, ухудшится ли компания в ближайшем будущем (скажем, через 3 месяца)
Данные выглядят следующим образом:
company audit_date predictor1 predictor2 ... predictorN target
A 201704 ... ... ... ... 0
A 201708 ... ... ... ... 0
A 201712 ... ... ... ... 0
A 201805 ... ... ... ... 1
B 201709 ... ... ... ... 0
B 201712 ... ... ... ... 0
C 201801 ... ... ... ... 1
C 201805 ... ... ... ... 0
D 201712 ... ... ... ... 0
D 201804 ... ... ... ... 1
Поскольку предикторами являются характеристики (как статические, так и поведенческие) компании, наблюдения, принадлежащие одной и той же компании, сильно зависят.
Итак, мои вопросы: поскольку большинство подходов к моделированию предполагают, что наблюдения независимы, следует ли мне беспокоиться о зависимости в данных? Если да, как я могу устранить или уменьшить эту зависимость?
Любой комментарий приветствуется. :)