Ошибка в размерах x_train и y_train - PullRequest
0 голосов
/ 02 апреля 2020

Я имею дело с большим набором данных (с категориальными (одно горячее) и числовыми функциями), и теперь я хочу применить регрессор случайного леса, чтобы проверить выбор его функций. Это часть моего кода:

# Split dataset in features and target variable
df1 = df

X = df1.loc[:, df1.columns != 'DI'] 

y = df1['DI'] # Target variable

X_train,y_train,X_test,y_test = train_test_split(X, y ,test_size=0.3)

rf = RandomForestRegressor(n_estimators = 100,
                           n_jobs = -1,
                           oob_score = True,
                           bootstrap = True,
                           random_state = 42)
rf.fit(X_train, y_train)

Однако, это показывает мне ошибку.

ValueError: Number of labels=2232 does not match number of samples=5207

Я знаю, что форма отличается, но я не знаю, как. Кто-нибудь может мне помочь?

np.shape(X_train)
(5207, 190)

np.shape(y_train)
(2232, 190)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...