У меня есть два фрейма данных, каждый с одинаковыми переменными и длиной строки, но с категориальными переменными (столбцами объектов), иногда имеющими разные реализации в одной и другой.
Вот что я имею в виду.
Frame 1 | categorical_1 | categorical_2 ||| Frame 2 | categorical_1 | categorical_2
row 1 | blue | flakes ||| row 1 | blue | flakes
row 2 | red | cheerios ||| row 2 | red | flakes
row 3 | blue | cheerios ||| row 3 | green | flakes
Как вы можете видеть на моей основной иллюстрации выше, зеленый цвет появляется только во втором кадре данных, тогда как cheerios только появляются на моем первом кадре данных.
По сути, мне нужен способ создания фиктивных столбцов переменных с учетом «диапазонов переменных» обоих фреймов данных (или более), поэтому я не могу просто вызвать pd.get_dummies
для любого из них.