как удалить повторяющиеся записи данных в кадре данных по python pandas - PullRequest
0 голосов
/ 18 июня 2020

фрейм данных с повторяющимися записями данных

[Привет, дорогой, я ладья ie во время обучения python и pandas. Я хочу удалить повторяющиеся записи данных в моем фрейме данных с Python и Pandas, содержащие повторяющиеся данные. В кадре данных у меня есть два столбца «код» и «номер». Есть несколько повторяющихся строк с одинаковым значением "кода", каждая из которых соответствует номеру. Я использую только sh, чтобы сохранить один код и сохранить самый большой соответствующий ему номер. например: "a" имеет три значения: 7, 5 и 4. Я надеюсь, что он сохранит только 7 и удалит остальные значения, то же самое для других кодов. Кто-нибудь поможет с этим, пожалуйста? большое спасибо]

1 Ответ

1 голос
/ 18 июня 2020

Создайте фрейм данных в качестве примера:

import pandas as pd

df = pd.DataFrame({
    "code": pd.Series(["a", "a", "a", "b", "b"]),
    "number": pd.Series([1,7,3,8,4])
})

df
code    number
0   a   1
2   a   7
1   a   3
4   b   8
3   b   4

Отсортируйте фрейм данных, чтобы код имел порядок, а затем числа сортируются в возрастающем порядке:

df_sorted = df.sort_values(by=["code","number"])

df_sorted
code    number
0   a   1
2   a   3
1   a   7
4   b   4
3   b   8

Падение повторяется codes, но оставьте code с самым большим number

df_unique = df_sorted.drop_duplicates(subset="code", inplace=False, keep="last")

df_unique
code    number
1   a   7
3   b   8
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...