Сохраняйте уникальные значения столбца во фрейме данных БЕЗ использования дубликатов отбрасывания - PullRequest
0 голосов
/ 03 марта 2020

У меня есть фрейм данных:

excel1 user_id public_key  first_seen
0      Mark    key1        1/14/2015  11:51:41 PM
1      Mark    key2        1/14/2015  11:51:41 PM
2      Mark    key3        1/14/2015  11:51:41 PM
3      Rhonda  key4        2/16/2015  2:16:04 PM
4      Rhonda  key5        2/16/2015  2:16:04 PM
5      Rhonda  key6        2/16/2015  2:16:04 PM

Я хочу сохранить строки, но удалить повторяющиеся записи в столбце first_seen

excel1 user_id public_key  first_seen
0      Mark    key1        1/14/2015  11:51:41 PM
1      Mark    key2        
2      Mark    key3        
3      Rhonda  key4        2/16/2015  2:16:04 PM
4      Rhonda  key5        
5      Rhonda  key6        

Это происходит потому, что я делаю pd.merge на двух файлах csv:

merged_df = pd.merge(output_df, read_df, left_on="user_id", right_on="user_id_left", how="inner").drop_duplicates(
        subset=['body'], keep='first')

Я пытался использовать методы .filter () и .query () на последнем кадре данных, но не смог получить желаемый результат. Как я могу получить желаемый дф?

1 Ответ

0 голосов
/ 03 марта 2020

IIU C, вы можете использовать drop_duplicates:

df['first_seen'] = df.drop_duplicates(['user_id', 'first_seen'])['first_seen']

Выход:

   excel1 user_id public_key             first_seen
0       0    Mark       key1  1/14/2015 11:51:41 PM
1       1    Mark       key2                    NaN
2       2    Mark       key3                    NaN
3       3  Rhonda       key4   2/16/2015 2:16:04 PM
4       4  Rhonda       key5                    NaN
5       5  Rhonda       key6                    NaN
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...