Это может быть скорее теоретический вопрос, чем связанный с кодом. В моей нынешней работе я нахожу себя оценивающим / предсказывающим (этот последний более подходящий c) уровень воды для данной реки в Африке.
Дело в том, что я разрабатываю упрощенную c множественную регрессию модель, которая использует более 15 лет исторических уровней воды и осадков (из разных мест) для получения оценок уровня воды.
Я не так привык работать с машинным обучением или как там правильно. Я больше привык моделировать данные и генерировать подгонки (текущие данные могут быть точно определены с помощью асимметрии c функций Гаусса и сигмоидов в сочетании с полиномами низкого порядка.
Итак, суть в том, что когда у меня множественная регрессия В этой модели мои коллеги посоветовали мне не использовать для оценки подходящие данные, а все исходные данные. Поскольку они не могли объяснить мне причину этого, я попытался использовать подобранные данные в качестве исходных данных (в свою защиту Медиана всех подходящих моделей имеет очень низкую погрешность отклонения == хорошая подгонка.) Но я не понимаю, почему я должен использовать только необработанные данные, которые должны быть шумными, неточными, принимая во внимание факторы, которые не связаны напрямую связанный (смещение регрессии?). В чем преимущество этого?
Меня не интересуют теоретические знания в этой области. Я должен всегда использовать все исходные данные для определения переменных моя множественная регрессия или я могу использовать подогнанные значения (т.е. получить из различных подходящих моделей каждого исторического года)?
Большое спасибо!