Question

У меня есть следующий DataFrame:

df = pd.DataFrame([10, 10, 23, 23, 9, 9, 9, 10, 10, 10, 10, 12], columns=['values'])

Я хочу вычислить частоту каждого значения, но не общее количество - количество каждого значения, пока оно не изменится на другое значение.

Я пытался:

df['values'].value_counts()

, но это дает мне

Желаемый результат:

Как я могу это сделать?

TimeSeam · Answer 1 · 07 декабря 2018

Функция groupby в itertools может помочь вам, для str:

>>> string = 'aabbaacc'
>>> for char, freq in groupby('aabbaacc'):
>>>     print(char, len(list(freq)), sep=':', end='\n')
[out]:
    a:2
    b:2
    a:2
    c:2

Эта функция также работает для list:

>>> df = pd.DataFrame([10, 10, 23, 23, 9, 9, 9, 10, 10, 10, 10, 12], columns=['values'])
>>> for char, freq in groupby(df['values'].tolist()):
>>>     print(char, len(list(freq)), sep=':', end='\n')
[out]:
    10:2
    23:2
     9:3
    10:4
    12:1

Note: для df вы всегда используете этот способ, например, df ['values'], чтобы получить столбец 'values', потому что DataFrame имеет атрибут values

UBears · Answer 2 · 30 ноября 2018

Это далеко не самый эффективный метод времени / памяти, который используется в этом потоке, но вот итеративный подход, который довольно прост.Пожалуйста, предложите улучшить этот метод.

import pandas as pd

df = pd.DataFrame([10, 10, 23, 23, 9, 9, 9, 10, 10, 10, 10, 12], columns=['values'])

dict_count = {}
for v in df['values'].unique():
    dict_count[v] = 0

curr_val = df.iloc[0]['values']
count = 1
for i in range(1, len(df)):
    if df.iloc[i]['values'] == curr_val:
        count += 1
    else:
        if count > dict_count[curr_val]:
            dict_count[curr_val] = count
        curr_val = df.iloc[i]['values']
        count = 1
if count > dict_count[curr_val]:
    dict_count[curr_val] = count

df_count = pd.DataFrame(dict_count, index=[0])
print(df_count)

piRSquared · Answer 3 · 29 ноября 2018

`itertools.groupby`

from itertools import groupby

pd.Series(*zip(*[[len([*v]), k] for k, v in groupby(df['values'])]))

10    2
23    2
9     3
10    4
12    1
dtype: int64

Это генератор

def f(x):
  count = 1
  for this, that in zip(x, x[1:]):
    if this == that:
      count += 1
    else:
      yield count, this
      count = 1
  yield count, [*x][-1]

pd.Series(*zip(*f(df['values'])))

10    2
23    2
9     3
10    4
12    1
dtype: int64

yatu · Answer 4 · 29 ноября 2018

Вы можете отслеживать, где происходят изменения в df['values']:

changes = df['values'].diff().ne(0).cumsum()
print(changes)

0     1
1     1
2     2
3     2
4     3
5     3
6     3
7     4
8     4
9     4
10    4
11    5

И groupby изменения, а также df['values'] (чтобы сохранить их в качестве индекса)вычисление size каждой группы

df.groupby([changes,'values']).size().reset_index(level=0, drop=True)

values
10    2
23    2
9     3
10    4
12    1
dtype: int64

WeNYoBen · Answer 5 · 29 ноября 2018

Использование crosstab

df['key']=df['values'].diff().ne(0).cumsum()
pd.crosstab(df['key'],df['values'])
Out[353]: 
values  9   10  12  23
key                   
1        0   2   0   0
2        0   0   0   2
3        3   0   0   0
4        0   4   0   0
5        0   0   1   0

Немного изменить приведенный выше результат

pd.crosstab(df['key'],df['values']).stack().loc[lambda x:x.ne(0)]
Out[355]: 
key  values
1    10        2
2    23        2
3    9         3
4    10        4
5    12        1
dtype: int64

На основе python groupby

from itertools import groupby

[ (k,len(list(g))) for k,g in groupby(df['values'].tolist())]
Out[366]: [(10, 2), (23, 2), (9, 3), (10, 4), (12, 1)]

jezrael · Answer 6 · 29 ноября 2018

Использование:

df = df.groupby(df['values'].ne(df['values'].shift()).cumsum())['values'].value_counts()

Или:

df = df.groupby([df['values'].ne(df['values'].shift()).cumsum(), 'values']).size()

print (df)
values  values
1       10        2
2       23        2
3       9         3
4       10        4
5       12        1
Name: values, dtype: int64

Последнее для удаления первого уровня:

df = df.reset_index(level=0, drop=True)
print (df)
values
10    2
23    2
9     3
10    4
12    1
dtype: int64

Объяснение:

Сравнить исходный столбец по shift с не равным ne, а затем добавить cumsum для помощникаSeries:

print (pd.concat([df['values'], a, b, c], 
                 keys=('orig','shifted', 'not_equal', 'cumsum'), axis=1))
    orig  shifted  not_equal  cumsum
0     10      NaN       True       1
1     10     10.0      False       1
2     23     10.0       True       2
3     23     23.0      False       2
4      9     23.0       True       3
5      9      9.0      False       3
6      9      9.0      False       3
7     10      9.0       True       4
8     10     10.0      False       4
9     10     10.0      False       4
10    10     10.0      False       4
11    12     10.0       True       5

Подсчет появления значения до его изменения на другое значение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

`itertools.groupby`

Это генератор

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подсчет появления значения до его изменения на другое значение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

itertools.groupby

Это генератор

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

`itertools.groupby`