Я пытаюсь сделать следующее
df = pd.read_csv('a.csv')
scaler = MinMaxScaler()
df_copy = df.copy(deep=True)
for i in range(1, len(df)):
df_chunk = df_copy.iloc[i,i+10]
df_chunk = scaler.fit_transform (df_chunk)
поэтому каждый df_chunk должен быть масштабированным фреймом данных.
Проблема в том, что некоторые не масштабируются правильно.
Если бы я планировал масштабированные точки данных, правильно масштабированный фрейм данных выглядел бы как диапазон чисел, разбросанных между 0 и 1, как бы равномерно. Но фреймы данных, которые я получаю, находятся в двух крайностях, причем первые ~ 80% чисел находятся в диапазоне 0,9, а остальные около диапазона 0,1.
Таким образом, создается впечатление, что первые ~ 80% данных были дважды масштабированы скейлером. Я уже пытался использовать глубокое копирование панд, чтобы решить эту проблему, но, похоже, это не помогает.
Если у вас есть идеи, почему?
Я был бы очень признателен.