Не опасно ли применять Min Max Scaling к тестовому набору? - PullRequest
0 голосов
/ 01 ноября 2019

Вот ситуация, о которой я беспокоюсь.

Позвольте мне сказать, что у меня есть модель, обученная с минимально-максимальными масштабированными данными. Я хочу протестировать свою модель, поэтому я также масштабировал набор тестовых данных со своим старым скейлером, который использовался на этапе обучения. Тем не менее, мои новые тестовые данные оказались более новым минимумом, поэтому скалер вернул отрицательное значение.

Насколько я знаю, минимум и максимум не являются таким стабильным значением, особенно в наборе изменчивых данных, таких какданные криптовалюты. В этом случае я должен обновить мой скейлер? Или я должен переучить свою модель?

Ответы [ 2 ]

0 голосов
/ 01 ноября 2019

Я не согласен с @Sharan_Sundar. Смысл масштабирования состоит в том, чтобы привести все ваши функции в единую шкалу, а не строго следить за тем, чтобы они лежали в интервале [0,1]. Это может быть очень важно, особенно при рассмотрении методов регуляризации, штрафовать большие коэффициенты (будь то коэффициенты линейной регрессии или веса нейронной сети). Сочетание масштабирования функций и регуляризации помогает обеспечить обобщение вашей модели для ненаблюдаемых данных.

Масштабирование на основе ваших «тестовых» данных не является хорошей идеей, поскольку на практике, как вы указали, вы можете легко наблюдать новыеточки данных, которые не находятся в пределах ваших исходных наблюдений. Ваша модель должна быть устойчивой к этому.

В общем, я бы порекомендовал рассмотреть различные процедуры масштабирования. MinMaxScaler от scikitlearn, как и StandardScaler, равен единице (вычтите среднее и разделите на стандартное отклонение). В случае, когда ваша целевая переменная, цена криптовалюты может варьироваться в пределах нескольких порядков, возможно, стоит использовать функцию логарифма для масштабирования некоторых из ваших переменных. Именно здесь наука о данных становится искусством - здесь не обязательно есть «правильный» ответ.

(РЕДАКТИРОВАТЬ) - См. Также: Применяете ли вы минимальное и максимальное масштабирование отдельно к данным тренировок и тестов?

0 голосов
/ 01 ноября 2019

В идеале вы должны сначала масштабироваться, а затем делиться только на тест и тренировкуНо не желательно использовать шкалу minmax с данными, которые могут иметь динамически изменяющиеся минимальные и максимальные значения со значительным отклонением в сценарии в реальном времени.

...