Панды: Как получить фиктивные переменные столбцы из объединения двух фреймов данных? - PullRequest
0 голосов
/ 13 января 2019

У меня есть два фрейма данных, каждый с одинаковыми переменными и длиной строки, но с категориальными переменными (столбцами объектов), иногда имеющими разные реализации в одной и другой.

Вот что я имею в виду.

Frame 1 | categorical_1 | categorical_2 |||  Frame 2 | categorical_1 | categorical_2
row 1   | blue          | flakes        |||  row 1   | blue          | flakes
row 2   | red           | cheerios      |||  row 2   | red           | flakes
row 3   | blue          | cheerios      |||  row 3   | green         | flakes

Как вы можете видеть на моей основной иллюстрации выше, зеленый цвет появляется только во втором кадре данных, тогда как cheerios только появляются на моем первом кадре данных.

По сути, мне нужен способ создания фиктивных столбцов переменных с учетом «диапазонов переменных» обоих фреймов данных (или более), поэтому я не могу просто вызвать pd.get_dummies для любого из них.

1 Ответ

0 голосов
/ 13 января 2019

В пандах нет другой функции, которая может помочь вам в этом. Как вы упомянули, pd.get_dummies может создавать макеты только в одном кадре данных.

У вас есть индекс или другой идентификатор в вашем фрейме данных?

если вы это сделаете, вы можете добавить categorical_2 и объединить их в один фрейм данных. Затем вы можете использовать pd.get_dummies и, наконец, сопоставить его с исходным кадром данных в соответствии с отдельным индексом или идентификатором.

Если вы этого не сделаете, я думаю, что единственный способ справиться с этим - это ручное кодирование.

...