Я взял раздел большого DataFrame (с именем 'df') с помощью .copy () (с именем 'df_copy') и применил некоторые функции для создания нового столбца, 'Category'.
Тем не менее, я также дал 'df' столбец с именем 'Category' и назначил некоторые другие значения этому столбцу. Все остальные значения / столбцы в 'df_copy' такие же, как их соответствующие значения / столбцы в 'df': единственное отличие - это столбец 'Category'.
Для понимания,
Исходные кадры данных:
- df - 100 строк с 3 столбцами.
- df_copy - это 5 строк из df с одинаковыми столбцами.
После обработки:
- df - 100 строк с 4 столбцами (новый столбец - «Категория»), 5 из этих строк имеют «NaN» для столбца «Категория»
- df_copy - это 5 строк с 4 столбцами, новый столбец - это «Категория», значения которой не указаны в df.
По сути, я хочу заменить строки, взятые из df (те, которые были в исходном кадре данных df_copy), на текущие строки постобработки из df_copy.
Я пробовал разные формы слияний:
- Слияние слева, не указывайте 'on': приводит к появлению 'NA' для столбца Category строк, которые были первоначально скопированы в df_copy
- правильное слияние, не указывайте 'on': то же, что df_copy
- оставлено слияние в одном столбце, который не изменился между df и df_copy (например, «Number»): каждый столбец дублируется: «Number_x», «Number_y», «Category_x», «Category_y».