Среднее по значению дублировано pandas python - PullRequest
0 голосов
/ 05 августа 2020

У меня есть следующий csv, и мне нужно получить дублированные значения из столбца DialedNumer, а затем среднюю длительность этих дубликатов.

введите описание изображения здесь

У меня уже есть дубликаты со следующим кодом:

df = pd.read_csv('cdrs.csv')
dnidump = pd.DataFrame(df, columns=['DialedNumber'])
pd.options.display.float_format = '{:.0f}'.format
dupl_dni = dnidump.pivot_table(index=['DialedNumber'], aggfunc='size')
a1 = dupl_dni.to_frame().rename(columns={0:'TimesRepeated'}).sort_values(by=['TimesRepeated'], ascending=False)
b = a1.head(10)
print(b) 

Вывод:

DialedNumber     TimesRepeated
50947740194          4
50936564292          2
50931473242          3

Я не могу понять, как получить продолжительность среднее количество дубликатов, есть идеи?

thx

Ответы [ 2 ]

1 голос
/ 05 августа 2020

попробуйте:

df_mean = df.groupby('DialedNumber').mean()
0 голосов
/ 05 августа 2020

Используйте df.groupby ('column'). Mean () Вот пример кода.

Вход

df = pd.DataFrame({'A': [1, 1, 1, 2, 2],
                   'B': [2461, 1023, 9, 5614, 212],
                   'C': [2, 4, 8, 16, 32]}, columns=['A', 'B', 'C'])
df.groupby('A').mean()

Выход

              B         C
A       
1   1164.333333 4.666667
2   2913.000000 24.000000

Ссылка на API pandas .core.groupby.GroupBy.mean https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.GroupBy.mean.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...