Некоторые ошибки при подгонке модели - PullRequest
0 голосов
/ 19 апреля 2020

Я работаю над заданием в наборе данных GPR. Я должен предсказать радиус объекта на основе некоторых других критериев.

Однако, когда я использую код rfc.fit(X_train,y_train), он показывает ошибку: Unknown label type: 'continuous'

import feather
import numpy as np
import pandas as pd

df = feather.read_dataframe('gpr_data.file')

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df.drop('soil_Type',axis=1,inplace=True)
scaler.fit(df)
dsc = scaler.transform(df)

df_final = pd.DataFrame(data = dsc, columns = df.columns)

X_train >> array([[-0.40241853,  0.63083221,  0.        , ...,  0.02426835,
         0.02295178,  0.02453078],
       [ 0.03979249,  1.23560154,  0.        , ..., -1.63194175,
        -1.38452986, -1.63390353],
       [-0.25501486, -0.2763218 ,  0.        , ...,  0.02077463,
         0.01975907,  0.02103128],
       ...,
       [ 2.2508476 ,  1.23560154,  0.        , ...,  0.02643297,
         0.02529163,  0.02669887],
       [ 2.2508476 ,  1.23560154,  0.        , ...,  0.02451454,
         0.02348024,  0.0247762 ],
       [-0.40241853,  0.63083221,  0.        , ...,  0.02776093,
         0.02614351,  0.0280285 ]])

y_train = array([ 1.56963217, -1.56623893, -1.56623893, ..., -0.86937869,
       -0.86937869, -0.17251844])

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_final.drop('Ob_rad',axis=1), 
                                                    df_final['Ob_rad'], test_size=0.30, 
                                                    random_state=101)


from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(n_estimators=600)
rfc.fit(X_train,y_train)

Я выглядел для решения онлайн, но я не мог это исправить. Я использовал >>

lab_enc = preprocessing.LabelEncoder() y_encoded = lab_enc.fit_transform(y_train)

Но однажды была показана другая ошибка, а в остальное время ячейка зависала в ноутбуке Jupyter.

Другая ошибка была Number of labels=240280 does not match number of samples=168196

Ссылка на набор данных (имя изменено) - https://drive.google.com/open?id=1nURLDBSGjlmuQOvEvF6fRL9jHEqIAo0E

...