почему размер выборки отличается при объединении двух данных? - PullRequest
0 голосов
/ 26 января 2019

Я преобразовал отдельно тренировочный набор и тестовый набор, чтобы получить макеты для категориальных признаков с pandas.get_dummies().
Таким образом, разница в размерах произошла из-за категорических различий в тренировочном наборе и тестовом наборе.
Я попытался выровнятьразмерность.
Но возникла проблема ниже.
Почему размер выборки отличается при объединении двух кадров данных?

enter image description here

1 Ответ

0 голосов
/ 26 января 2019

По моему мнению, по умолчанию RangeIndex в X_train.index нет, поэтому нужно создать его до concat:

X_train = X_train.reset_index(drop=True)

Другое решение - добавить параметр index для одинаковых индексов в обоих DataFrame с:

diff_df2 = pd.Dataframe(np.zeros((X_train.shape[0], len(diff_dummy2))), 
                        columns=diff_dummy2,
                        index= X_train.index)
...