Я загрузил две части набора данных: непрерывные и категориальные переменные. Эти переменные были закодированы с использованием скейлера MinMax и кодера OneHot соответственно.
continuous_features = ["Col1", "Col2"]
categorical_features = ["Col3", "Col4"]
min_max_enc = joblib.load('minmaxscaler.pkl')
one_hot_enc = joblib.load('onehotencoder.pkl')
df_minmaxEncoded = min_max_enc.transform(df[continuous_features])
df_onehotEncoded = one_hot_enc.transform(df[categorical_features])
Тогда мне нужно объединить эти наборы данных:
dataset = pd.concat([df_minmaxEncoded,df_onehotEncoded], axis=1)
У них одинаковое количество строк. Но проблема в том, что df_minmaxEncoded
в массиве Numpy (numpy.ndarray
), а df_onehotEncoded
равно scipy.sparse.csr.csr_matrix
.
Как я могу преобразовать их оба в Pandas DataFrame и объединить?