Я имею дело с большим набором данных (с категориальными (одно горячее) и числовыми функциями), и теперь я хочу применить регрессор случайного леса, чтобы проверить выбор его функций. Это часть моего кода:
# Split dataset in features and target variable
df1 = df
X = df1.loc[:, df1.columns != 'DI']
y = df1['DI'] # Target variable
X_train,y_train,X_test,y_test = train_test_split(X, y ,test_size=0.3)
rf = RandomForestRegressor(n_estimators = 100,
n_jobs = -1,
oob_score = True,
bootstrap = True,
random_state = 42)
rf.fit(X_train, y_train)
Однако, это показывает мне ошибку.
ValueError: Number of labels=2232 does not match number of samples=5207
Я знаю, что форма отличается, но я не знаю, как. Кто-нибудь может мне помочь?
np.shape(X_train)
(5207, 190)
np.shape(y_train)
(2232, 190)