Как бороться с зависимыми наблюдениями в задаче моделирования классификации? - PullRequest
0 голосов
/ 25 октября 2019

Я пытаюсь построить классификационную прогностическую модель с сильными зависимыми наблюдениями в данных. Проще говоря, данные фиксируют историю аудита группы компаний. Для каждой компании у нас есть результаты аудита аудита, которые наблюдаются в определенные моменты времени, и цель состоит в том, чтобы предсказать, ухудшится ли компания в ближайшем будущем (скажем, через 3 месяца)

Данные выглядят следующим образом:

company  audit_date  predictor1  predictor2  ...  predictorN  target
A         201704        ...        ...       ...     ...       0
A         201708        ...        ...       ...     ...       0
A         201712        ...        ...       ...     ...       0
A         201805        ...        ...       ...     ...       1
B         201709        ...        ...       ...     ...       0
B         201712        ...        ...       ...     ...       0
C         201801        ...        ...       ...     ...       1
C         201805        ...        ...       ...     ...       0
D         201712        ...        ...       ...     ...       0
D         201804        ...        ...       ...     ...       1

Поскольку предикторами являются характеристики (как статические, так и поведенческие) компании, наблюдения, принадлежащие одной и той же компании, сильно зависят.

Итак, мои вопросы: поскольку большинство подходов к моделированию предполагают, что наблюдения независимы, следует ли мне беспокоиться о зависимости в данных? Если да, как я могу устранить или уменьшить эту зависимость?

Любой комментарий приветствуется. :)

...