Я начал разрабатывать некоторые LSTM-модели и теперь у меня есть вопросы по нормализации.
Предположим, у меня есть данные временных рядов, которые примерно колеблются между +500 и -500.Было бы более реалистичным масштабировать данные от -1 до 1 или лучше использовать 0 к 1, я проверил их, и 0 к 1 показалось быстрее.Есть ли неправильный способ сделать это?Или это будет медленнее учиться?
Второй вопрос: когда я нормализую данные?Я делю данные на обучающие и тестовые данные, нужно ли отдельно масштабировать / нормализовать эти данные?возможно, тренировочные данные находятся в диапазоне от +300 до -200, а тестовые данные - от +600 до -100.Это не очень хорошо, я думаю.
Но с другой стороны ... Если я масштабирую / нормализую весь фрейм данных и разделяю его после этого, данные хороши для обучения и тестирования, но как мне справиться с реальнымновые поступающие данные?Модель обучена масштабировать данные, поэтому мне нужно масштабировать и новые данные, верно?Но что, если новые данные 1000?нормализация превратит это в нечто большее, чем 1, потому что это больше, чем все остальное.
Короче говоря, когда я нормализую данные и что произойдет с совершенно новыми данными?
Я надеюсь, что смогу прояснить, в чем моя проблема: D
Большое спасибо!