Удалить повторяющиеся строки в Pandas (возможно, по группам) - PullRequest
1 голос
/ 21 января 2020

У меня есть набор данных, df, со следующими данными:

starttime               endtime              ID  Diff  
1/10/2020 9:05:00 PM    1/10/2020 9:05:10    A    10
1/10/2020 9:05:00 PM    1/10/2020 9:05:10    A    10
1/10/2020 9:06:00 PM    1/10/2020 9:06:10    B    10

Желаемый результат:

starttime               endtime              ID Diff
1/10/2020 9:05:00 PM    1/10/2020 9:05:10    A  10
1/10/2020 9:06:00 PM    1/10/2020 9:06:10    B  10

Если вы заметили, одна из строк из группы A была удалена, поскольку это был точный дубликат:

1/10/2020 9:05:00 pm    1/10/2020 9:05:10    A   10

Это код, который я использую, однако я не уверен относительно того, что включать в скобки, или если это правильно:

df.drop_duplicates(subset=None, keep=False)

Любые предложения приветствуются.

Ответы [ 2 ]

2 голосов
/ 21 января 2020

Вы можете поставить столбец

df.drop_duplicates(subset='ID', keep=False)

1 голос
/ 21 января 2020

Попробуйте посмотреть в документах. Если вы не можете понять, что является наиболее подходящим для вашего случая, то спросите еще раз, предоставив контекст (например, пример).

Ссылка для pandas 0,25

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...