Точный прогноз значений выбросов - PullRequest
0 голосов
/ 21 декабря 2018

Я работаю над медицинскими данными, которые связаны с расчетом артериального давления (проблема регрессии).В наборе данных, который у меня есть на данный момент, мало цифр для экстремальных значений систолического и диастолического bp. Алгоритмы, которые я использую в данный момент, - это нейронные сети и XGBoost, которые принимают экстремальные значения как выбросы и дают высокиеMAE на прогнозы для значений выбросов.Есть ли способ, которым мы можем настроить алгоритмы или набор данных так, чтобы алгоритмы могли дать разумный прогноз на значения «выбросов»?Я слышал, логарифмическое преобразование зависимой переменной может быть решением, я прав?Есть ли другие способы?

Заранее спасибо Арджун

1 Ответ

0 голосов
/ 21 декабря 2018

Преобразование масштаба журнала сделает ваше целевое распределение нормальным (вероятно).Если это так - вам повезло.

Если это не работает:

  1. Удалите выбросы из набора данных.Они приносят только шум в этот момент.Что вредит модели в целом.
  2. Постройте одну модель (регрессию) на нормальных значениях, а другую - на выбросах.Последнее, что вы можете попытаться упростить: введите значения ввода как 0 и 1 (нормальные значения и выбросы).
  3. Используйте более простые модели (линейные: лассо в качестве начала, Хьюберта).Сложные модели, такие как NN и XGB, в конечном итоге будут соответствовать вашим нескольким крайним случаям.

Это общие подходы.Но, в общем, вам нужно вернуться в EDA и попытаться проанализировать эти экстремальные случаи: график распределения, понять зависимость между экстремальными случаями систолического и диастолического bp, ту же зависимость (и корреляцию) между крайними случаями и целевой переменной и т. Д.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...