Обнаружение аномалий в наборе данных в R - PullRequest
0 голосов
/ 01 августа 2020

Я хотел бы обнаружить закономерности в наборе данных о погоде, состоящем примерно из 10'000 точек данных. У меня есть около 40 возможных предикторов (температура, влажность и т. Д. c.), Которые могут объяснить хорошую или плохую погоду на следующий день (зависимая переменная). Обычно я применяю классические методы машинного обучения, такие как Random Forest, для построения и тестирования моделей для классификации всего набора данных и нахождения надежных предикторов для прогноза погоды на следующий день.

Моя задача, однако, другая. Я хочу найти предикторы и их параметры, которые «гарантируют» мне хорошую или плохую погоду в подмножестве общих данных. Я не заинтересован в описании всего набора данных, а в поиске шаблона предикторов (и их параметров), которые дают мне хорошие или плохие погодные индикаторы. Итак, я пытаюсь найти, например, 100 точек данных со 100% хорошей погодой, если определенные предикторы установлены на определенные уровни. Меня не интересуют другие 9'900 точек данных.

Это своего рода задача попробовать все комбинации и калибровки предикторов, чтобы найти подмножество общих точек данных, которые можно предсказать с очень высокой точностью .

Как бы вы делали это систематически?

...