Исходные данные, необходимые для прогнозирования / оценки тенденций для данной переменной - PullRequest
1 голос
/ 03 февраля 2020

Это может быть скорее теоретический вопрос, чем связанный с кодом. В моей нынешней работе я нахожу себя оценивающим / предсказывающим (этот последний более подходящий c) уровень воды для данной реки в Африке.

Дело в том, что я разрабатываю упрощенную c множественную регрессию модель, которая использует более 15 лет исторических уровней воды и осадков (из разных мест) для получения оценок уровня воды.

Я не так привык работать с машинным обучением или как там правильно. Я больше привык моделировать данные и генерировать подгонки (текущие данные могут быть точно определены с помощью асимметрии c функций Гаусса и сигмоидов в сочетании с полиномами низкого порядка.

Итак, суть в том, что когда у меня множественная регрессия В этой модели мои коллеги посоветовали мне не использовать для оценки подходящие данные, а все исходные данные. Поскольку они не могли объяснить мне причину этого, я попытался использовать подобранные данные в качестве исходных данных (в свою защиту Медиана всех подходящих моделей имеет очень низкую погрешность отклонения == хорошая подгонка.) Но я не понимаю, почему я должен использовать только необработанные данные, которые должны быть шумными, неточными, принимая во внимание факторы, которые не связаны напрямую связанный (смещение регрессии?). В чем преимущество этого?

Меня не интересуют теоретические знания в этой области. Я должен всегда использовать все исходные данные для определения переменных моя множественная регрессия или я могу использовать подогнанные значения (т.е. получить из различных подходящих моделей каждого исторического года)?

Большое спасибо!

1 Ответ

1 голос
/ 03 февраля 2020

вот мои 2 цента

Я думаю, что ваши коллеги говорят, что потому что для модели было бы лучше узнать корреляции между необработанными данными и фактическим дождем.

В поле, которое вы начнете с необработанных данных, поэтому возможность прогнозировать непосредственно из него очень полезна. Чем больше работы, которую вы выполняете после обработки необработанных данных, вам придется выполнять каждый раз, когда вы хотите сделать прогноз.

Однако, если более простая модель работает perfectly defined with asymetric gaussians and sigmoids functions combined with low order polynomials, я бы рекомендовал это делать. Пока ваш (y_pred - t_true) ** 2 очень маленький

...