Как выбрать лучшую модель для регрессии? - PullRequest
0 голосов
/ 28 апреля 2020

Я строю модель для прогнозирования задержки полета. Мой набор данных содержит следующие столбцы:

FL_DATE (содержит месяцы (1-12)), OP_CARRIER (одна горячая кодировка данных имен перевозчиков), ORIGIN (одна горячая кодировка данных аэропорта происхождения), Dest (один - данные в горячем кодировании аэропорта Dest), CRS_DEP_TIME (предполагаемое время вылета, например: 1015), DEP_TIME (фактическое время вылета, например: 1017), DEP_DELAY (разница между crs-dep, например: -2), ARR_DELAY (задержка прибытия, например: -2)

Скриншот первых 10 строк моего набора данных

Моя целевая переменная ARR_DELAY. После проверки моих данных я решил, что это проблема регрессии. Однако я не уверен, какой метод мне нужно использовать для выбора соответствующих столбцов. С другой стороны, я строил каждый столбец с помощью ARR_DELAY, чтобы проверить их соотношение, и получил что-то вроде этого: FL_TIME против ARR_DELAY . В таком сценарии ios, если мне нужно построить модель для таких данных, какую технику регрессии я должен использовать?

PS: Я новичок в машинном обучении. Пожалуйста, поправьте меня, если я иду в неправильном направлении

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...