Ниже приводится проблема регрессии, в которой у меня есть набор данных, состоящий из более чем 40 тыс. Идентификаторов потребления с некоторыми переменными, такими как DateTime, месяц, год, температура, влажность. Я построил формат табличных данных Fastai, используя слои встраивания для категориальных переменных. Исторические значения потребления (моя цель) находятся в диапазоне [0, 1.400.000]. Я использовал tabular_learner
с двумя плотными слоями [1000, 500]. После запуска lr.find()
я выбрал скорость обучения, равную 1e-01 .
learn.fit_one_cycle(3, max_lr=slice(1e-02), wd=0.2)
Unfortunately, I reached the following results with an RMSE which is fluctuating during epochs:
введите описание изображения здесь
Я думаю, что у меня проблема мультиколлинеарности, поэтому оценка R ^ 2 равна -inf. Еще одно соображение: почему потери при валидации и поездах так высоки? Мне нужно сменить модель или, по вашему мнению, проблема заключается в подготовке данных?