Question

У меня есть следующий csv, и мне нужно получить дублированные значения из столбца DialedNumer, а затем среднюю длительность этих дубликатов.

введите описание изображения здесь

У меня уже есть дубликаты со следующим кодом:

df = pd.read_csv('cdrs.csv')
dnidump = pd.DataFrame(df, columns=['DialedNumber'])
pd.options.display.float_format = '{:.0f}'.format
dupl_dni = dnidump.pivot_table(index=['DialedNumber'], aggfunc='size')
a1 = dupl_dni.to_frame().rename(columns={0:'TimesRepeated'}).sort_values(by=['TimesRepeated'], ascending=False)
b = a1.head(10)
print(b)

Вывод:

DialedNumber     TimesRepeated
50947740194          4
50936564292          2
50931473242          3

Я не могу понять, как получить продолжительность среднее количество дубликатов, есть идеи?

thx

Naoki Watanabe · Answer 1 · 05 августа 2020

Используйте df.groupby ('column'). Mean () Вот пример кода.

Вход

df = pd.DataFrame({'A': [1, 1, 1, 2, 2],
                   'B': [2461, 1023, 9, 5614, 212],
                   'C': [2, 4, 8, 16, 32]}, columns=['A', 'B', 'C'])
df.groupby('A').mean()

Выход

              B         C
A       
1   1164.333333 4.666667
2   2913.000000 24.000000

Ссылка на API pandas .core.groupby.GroupBy.mean https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.GroupBy.mean.html

Среднее по значению дублировано pandas python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Среднее по значению дублировано pandas python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов