Предполагая, что у нас есть кадр данных, как показано ниже:
df = pd.DataFrame({ 'Col1' : ['a', 'a', 'a', 'a', 'b', 'b', 'c', 'c'],
'col2' : ['0.5', '0.78', '0.78', '0.4', '2', '9', '2', '7',]
})
Я подсчитал количество строк для всех уникальных значений в col1
. Как a
имеет 4 строки, b
и c
имеют 2 строки каждая, выполнив:
df.groupby(['Col1']).size()
и я получаю вывод как
Col1
a 4
b 2
c 2
dtype: int64
После того, как это будет сделано, я хотел бы проверить, какой из a, b, c имеет максимальное количество строк (в этом случае a
имеет максимальное количество строк) и дополнить остальные (b
и c
) с разницей между максимальным значением и строками, которые у них есть, с нулями (и b
, и c
имеют по 2 строки в каждой, а так как 4 - максимальное количество строк, я хочу дополнить b
и c
с еще 2 нулями). Нули должны быть добавлены в конце.
Я хочу заполнить его нулями, поскольку я хочу применить окно фиксированного размера ко всем переменным (a, b, c) для построения графиков.