Простите, если подобный вопрос уже задавали. Я новичок ie и пытаюсь заполучить Python.
У меня есть приведенный ниже фрейм данных, который создается из функции pandas DataFrame.duplicated()
на основе 'Lo c '(группировка) и' Категория '. Только повторяющиеся записи помечены как True / False, остальные помечены как «Неприменимо»
Number Loc Category Date Only_Dupes
----------------------------------------------------------
1 A jetski 01/01/2020 Not Applicable
2 A kayak 01/02/2020 Not Applicable
3 A jetski,kayak 01/04/2020 Not Applicable
4 B jetski 01/05/2020 False
5 B jetski 01/07/2020 True
6 C kayak 01/08/2020 False
7 C kayak 01/09/2020 True
8 C jetski 01/10/2020 Not Applicable
Код для идентификации дубликатов:
comp1 = df.duplicated(['Loc','Category'])
comp2 = df.groupby(['Loc','Category'])['Category'].transform('count').gt(1)
df['Only_Dupes'] = np.where(comp2,comp1,'Not Applicable')
Я ожидаю создать еще один столбец Source_Date ', который должен представлять дату источника записи, только если они дублируются, а остальные могут быть пустыми.
Ожидаемый фрейм данных:
Number Loc Category Date Only_Dupes Source_date
---------------------------------------------------------------------------------
1 A jetski 01/01/2020 Not Applicable
2 A kayak 01/02/2020 Not Applicable
3 A jetski,kayak 01/04/2020 Not Applicable
4 B jetski 01/05/2020 False 01/05/2020
5 B jetski 01/07/2020 True 01/05/2020
6 C kayak 01/08/2020 False 01/08/2020
7 C kayak 01/09/2020 True 01/08/2020
8 C jetski 01/10/2020 Not Applicable
Пожалуйста, дайте мне знать, если требуются какие-либо дополнительные разъяснения . Спасибо за помощь. :)