Вопрос о правильном способе использования StandardScaler для данных временных рядов. У меня есть данные временного ряда, которые я хочу поместить в RNN формы (образцы, временной шаг, особенности), я разделяю данные на обучающие / проверочные / тестовые наборы с соотношением примерно 70/20/10. соответственно, скейлеры Scikit принимают только 2D-тензоры для подгонки данных, теперь вопрос заключается в том, как правильно вписать данные 3D-тренировки в скейлер, чтобы затем также преобразовать набор для проверки и тестирования?
Кроме того, есть еще одна вещь, о которой стоит упомянуть. Одна выборка моих данных имеет форму (100,6) ---> (шаг по времени, особенности), но из этой одной выборки я отбираю несколько выборок формы (40, 6) из-за того, что я Мне нужно только 40 временных шагов для моей проблемы, и, кроме того, это позволяет мне генерировать больше данных из одной выборки, теперь было бы лучше масштабировать каждую отдельную выборку (40, 6) и передавать ее в мою модель или просто масштабировать целую выборку (100, 6) и после этого выполнять подвыборку?
Проблема с масштабированием всей выборки из моего понимания возникнет позже, когда модель столкнется с новыми данными, вновь собранные данные будут иметь форму (40, 6), потому что это форма, которую ожидает модель, и это количество временных шагов, необходимых для прогнозирования того, что я пытаюсь предсказать, но, поскольку во время обучения данные масштабировались с большим размером выборки (100, 6), это может вызвать некоторые ошибки прогнозирования. Очевидно, что если я ошибся, поправьте меня, это очень поможет.
Приветствия