предположительно мой набор данных
Name Num Label
0 K 10 0
1 K 21 0
2 K 31 0
3 K 41 1
4 Y 9 0
5 Y 19 0
6 Y 14 1
7 B 33 0
8 B 43 0
9 B 77 1
10 B 89 1
11 S 14 0
12 S 20 1
13 S 33 1
14 S 55 1
, поэтому я использовал сводную таблицу, используя count
df.pivot_table(index='Name',columns='Label', values='Num', aggfunc = 'count')
результат
COUNT
Name 0(label) 1(label)
K 3 1
Y 2 1
B 2 1
S 1 3
Мне нужно для сравнения двух значений (метка: 0, метка: 1), но я хочу произвести расчет после установки значения счетчика.
Однако многие значения пытаются поставить медианные значения.
Например в случае K есть 3 значения, помеченные 0, и 1 значение, помеченное 1. Значение, помеченное «0», для сравнения со значением, помеченным «1», является средним значением 21 (из 11, 21, 31).
Над фреймом данных. В качестве примера данных значение count равно 1 с одной стороны, но значение count может быть много.
Например, количество значений, помеченных как '0 'может быть 10, а количество значений, помеченных как' 1 ', может быть 30.
Даже в этом случае, чтобы сравнить и сопоставить 10 значений, желательно использовать 10 медиан среди 30 значений (помечены набор данных '1'.)
* Если вы не поняли, оставьте комментарий.
Результат подсчета для окончательный результат должен быть следующим.
COUNT(The median value is applied to the value with a small count.)
Name 0(label) 1(label)
K 1 1
Y 1 1
B 1 1
S 1 1
Или возможно получить медиану числа, которое я хочу, когда есть несколько значений?
например, values = 1 , 2, 3, 4, 5, 6, 7, 8, 9, 10
Если мне нужны 4 медианы этих значений -> 4,5,6,7
спасибо за чтение .