Как объединить numpy.ndarray и scipy.sparse.csr.csr_matrix с одинаковым количеством строк? - PullRequest
0 голосов
/ 14 января 2019

Я загрузил две части набора данных: непрерывные и категориальные переменные. Эти переменные были закодированы с использованием скейлера MinMax и кодера OneHot соответственно.

continuous_features = ["Col1", "Col2"]
categorical_features = ["Col3", "Col4"]

min_max_enc = joblib.load('minmaxscaler.pkl')
one_hot_enc = joblib.load('onehotencoder.pkl')

df_minmaxEncoded = min_max_enc.transform(df[continuous_features])
df_onehotEncoded = one_hot_enc.transform(df[categorical_features])

Тогда мне нужно объединить эти наборы данных:

dataset = pd.concat([df_minmaxEncoded,df_onehotEncoded], axis=1)

У них одинаковое количество строк. Но проблема в том, что df_minmaxEncoded в массиве Numpy (numpy.ndarray), а df_onehotEncoded равно scipy.sparse.csr.csr_matrix.

Как я могу преобразовать их оба в Pandas DataFrame и объединить?

...