Какие методы лучше всего подходят для управления, прогнозирования и маркировки данных в динамической среде?Распределение данных системы изменяется и не является статичным.Система может иметь разные нормальные настройки и при разных настройках у нас разные нормальные распределения данных.Считайте, что у нас есть два класса.Нормальный и ненормальный.Что просходит?Мы не можем сказать, что можем опираться на исторические данные и обучить простой метод классификации для прогнозирования будущих наблюдений, поскольку через один день после обучения модели распределение данных может измениться, и старые наблюдения станут неактуальными для новых.Рассмотрим следующий рисунок:
Голубое распределение и красное распределение - это нормальные данные, но при других настройках, и во время обучения у нас есть только одна настройка.Эти данные для одного датчика.Итак, предположим, что мы тренируем модель с синим цветом, а также имеем ненормальные образцы.Представьте аномальные образцы как нормальные образцы с небольшим шумом или ошибкой в измерениях.Затем мы хотим протестировать модель, но устанавливаем изменения, и теперь у нас есть красное распределение в качестве наших тестовых наблюдений.Итак, модель неправильно классифицирует выборки.
Каковы лучшие методы для такой ситуации?Обратите внимание, что я пробовал несколько алгоритмов кластеризации, но они не могут управлять и различать нормальные и ненормальные выборки.
Любые предложения и помощь приветствуются.Спасибо