Я пытаюсь применить кластеризацию k-средних в sklearn к (52,168,2) -мерному набору данных.Как и ожидалось, он дает ошибку измерения для оценки, поскольку ожидаются двухмерные данные.Каким должен быть путь вперед?
У меня есть данные о ветре и загрузке в двух отдельных файлах за год с еженедельными данными (с разрешением в один час) в каждой строке в обоих файлах.Данные о ветре и нагрузке коррелируют (то есть данные о ветре за неделю соответствуют неделе 2).Я пытаюсь применить кластеризацию K-средних для сокращения рабочих периодов с 52 недель до соответствующего количества недель (в идеале - 12 недель).Следовательно, каждая точка данных, в этом случае, представляет собой массив 168 * 2 np с объединенными недельными данными о ветре и нагрузке.
Размер данных выходит на (52 168,2), так как у меня есть 52 недели, и каждая точка данных составляет 168 * 2.Тем не менее, я не могу применить это к sklearn k-means, так как это требует 2D данных.Мне интересно, если я изменю форму данных как data.reshape (52,168 * 2), сохранит ли это то, что я собираюсь сделать?
Load_data = pd.read_csv('Scenario_Load_Data.csv', header = None)
Load_data_final = Load_data.to_numpy()
Wind_data = pd.read_csv('Scenario_Wind_Data.csv', header = None)
Wind_data_final = Wind_data.to_numpy()
create_list = []
for i in range(len(Load_data_final)):
intermediate_v = np.column_stack((Load_data_final[i,:],Wind_data_final[i,:]))
create_list.append(intermediate_v)
data = np.array(create_list)
ValueError: найден массив с dim 3. Ожидается оценщик <= 2. </p>