Question

У меня есть следующие данные:

[4.1, 4.1, 4.1, 4.2, 4.3, 4.3, 4.4, 4.5, 4.6, 4.6, 4.8, 4.9, 5.1, 5.1, 5.2, 5.2, 5.3, 5.3, 5.3, 5.4, 5.4, 5.5, 5.6, 5.6, 5.6, 5.7, 5.8, 5.9, 6.2, 6.2, 6.2, 6.3, 6.4, 6.4, 6.5, 6.6, 6.7, 6.7, 6.8, 6.8]

Мне нужно построить таблицу подсчета / частоты следующим образом:

4.1 - 4.5: 8
4.6 - 5.0: 4
5.1 - 5.5: 10
5.6 - 6.0: 6
6.1 - 6.5: 7
6.6 - 7.0: 5

Ближайший результат, который я могу получить - следующий результат:

            counts  freqs
 categories               
[4.1, 4.6)       8  0.200
[4.6, 5.1)       4  0.100
[5.1, 5.6)      10  0.250
[5.6, 6.1)       6  0.150
[6.1, 6.6)       7  0.175
[6.6, 7.1)       5  0.125

Через этот код:

sr = [4.1, 4.1, 4.1, 4.2, 4.3, 4.3, 4.4, 4.5, 4.6, 4.6, 4.8, 4.9, 5.1, 5.1, 5.2, 5.2, 5.3, 5.3, 5.3, 5.4, 5.4, 5.5, 5.6, 5.6, 5.6, 5.7, 5.8, 5.9, 6.2, 6.2, 6.2, 6.3, 6.4, 6.4, 6.5, 6.6, 6.7, 6.7, 6.8, 6.8]
ncut = pd.cut(sr, [4.1, 4.6, 5.1, 5.6, 6.1, 6.6, 7.1],right=False)

srpd = pd.DataFrame(ncut.describe())

Мне нужно создать новый столбец, который является медианой значения «категорий» (например, для «[4.1, 4.6)», он содержит количество / частоту данных от 4.1 до 4.5 (не включая 4.6)) , Поэтому мне нужно получить (4.1 + 4.5) / 2, что равно 4.3.

Вот мои вопросы:

1) Как получить доступ к значениям в индексе «категорий», чтобы использовать его для вычислений, как указано выше?

2) Есть ли способ отразить диапазон следующим образом: 4.1 - 4.5, 4.6 - 5.0 и т. Д.?

3) Существует ли более простой способ вычисления среднего значения, медианы, режима и т. Д. Для сгруппированных данных, подобных этим? или мне нужно создавать свои собственные функции для них в Python?

Спасибо

Chris A · Answer 1 · 28 августа 2018

А как насчет следующих проблем с выпуском бункеров и этикеток:

bins = [4.1, 4.6, 5.1, 5.6, 6.1, 6.6, 7.1]
labels = ['{}-{}'.format(x, y-.1) for x,  y in zip(bins[:], bins[1:])]

Тогда вместо ваших значений в виде списка сделайте их Series

sr = pd.Series([4.1, 4.1, 4.1, 4.2, 4.3, 4.3, 4.4, 4.5, 4.6, 4.6, 4.8, 4.9, 5.1,
                5.1, 5.2, 5.2, 5.3, 5.3, 5.3, 5.4, 5.4, 5.5, 5.6, 5.6, 5.6, 5.7,
                5.8, 5.9, 6.2, 6.2, 6.2, 6.3, 6.4, 6.4, 6.5, 6.6, 6.7, 6.7, 6.8, 6.8])
ncut = pd.cut(sr, bins=bins, labels=labels, right=False)

Определите функцию lambda для расчета частоты

freq = lambda x: len(x) / x.sum()
freq.__name__ = 'freq'

Наконец, используйте concat, groupby и agg, чтобы получить сводную статистику по бинам

pd.concat([ncut, sr], axis=1).groupby(0).agg(['size', 'std', 'mean', freq])

Scott Boston · Answer 2 · 28 августа 2018

Давайте попробуем:

l = [4.1, 4.1, 4.1, 4.2, 4.3, 4.3, 4.4, 4.5, 4.6, 4.6, 4.8, 4.9, 
     5.1, 5.1, 5.2, 5.2, 5.3, 5.3, 5.3, 5.4, 5.4, 5.5, 5.6, 5.6, 
     5.6, 5.7, 5.8, 5.9, 6.2, 6.2, 6.2, 6.3, 6.4, 6.4, 6.5, 6.6, 
     6.7, 6.7, 6.8, 6.8]

s = pd.Series(l)

bins = [4.1, 4.6, 5.1, 5.6, 6.1, 6.6, 7.1]
#Python 3.6+ f-string
labels = [f'{i}-{j-.1}' for i,j in zip(bins,bins[1:])]

(pd.concat([pd.cut(s, bins=bins, labels=labels, right=False),s],axis=1)
            .groupby(0)[1]
            .agg(['mean','median', pd.Series.mode, 'std'])
            .rename_axis('categories')
            .reset_index())

Выход:

  categories      mean  median        mode       std
0    4.1-4.5  4.250000    4.25         4.1  0.151186
1    4.6-5.0  4.725000    4.70         4.6  0.150000
2    5.1-5.5  5.280000    5.30         5.3  0.131656
3    5.6-6.0  5.700000    5.65         5.6  0.126491
4    6.1-6.5  6.314286    6.30         6.2  0.121499
5    6.6-7.0  6.720000    6.70  [6.7, 6.8]  0.083666

Miguel A. Friginal · Answer 3 · 28 августа 2018

Я как-то придумал способ сделать это:

def buildFreqTable(data, width, numclass, pw):
data.sort()
minrange = []
maxrange = []
x_med = []
count = []

# Since data is already sorted, take the lowest value to jumpstart the creation of ranges
f_data = data[0]

for i in range(0,numclass):
    # minrange holds the minimum value for that row
    minrange.append(f_data)
    # maxrange holds the maximum value for that row
    maxrange.append(f_data + (width - pw)) 
    # Compute for range's median
    minmax_median = (minrange[i] + maxrange[i]) / 2
    x_med.append(minmax_median)
    # initialize count per numclass to 0, this will be incremented later
    count.append(0)

    f_data = f_data + width

# Tally the frequencies
for x in data:
    for i in range(0,6):
        if (x>=minrange[i] and x<=maxrange[i]):
            count[i] = count[i] + 1

# Now, create the pandas dataframe for easier manipulation
freqtable = pd.DataFrame()
freqtable['minrange'] = minrange
freqtable['maxrange'] = maxrange
freqtable['x'] = x_med
freqtable['count'] = count

buildFreqTable(sr, 0.5, 6, 0.1)

Выдает следующее:

   minrange  maxrange    x  count
0       4.1       4.5  4.3      8
1       4.6       5.0  4.8      4
2       5.1       5.5  5.3     10
3       5.6       6.0  5.8      6
4       6.1       6.5  6.3      7
5       6.6       7.0  6.8      5

Хотя мне все еще любопытно, есть ли более простой способ сделать это, или кто-то мог бы реорганизовать мой код, чтобы сделать его более «прообразным» Спасибо

Python / Pandas для решения группового среднего, медианы, моды и стандартного отклонения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python / Pandas для решения группового среднего, медианы, моды и стандартного отклонения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов