Question

Как я могу получить самый частый предмет в серии pandas?

Рассмотрим серию s

s = pd.Series("1 5 3 3 3 5 2 1 8 10 2 3 3 3".split()).astype(int)

Возвращаемое значение должно быть 3

piRSquared · Answer 1 · 27 августа 2018

`pandas.factorize` и `numpy.bincount`

Это очень похоже на ответ @ jezrael's Numpy. Разница заключается в использовании factorize, а не numpy.unique

factorize возвращает целочисленную факторизацию и уникальные значения
bincount считает сколько каждого уникального значения
argmax определяет, какой бин или фактор является наиболее частым
Используйте позицию корзины, возвращенную из argmax, чтобы ссылаться на наиболее частое значение из массива уникальных значений

i, r = s.factorize()
r[np.bincount(i).argmax()]

3

jpp · Answer 2 · 27 августа 2018

Вы можете просто использовать pd.Series.mode и извлечь первое значение:

res = s.mode().iloc[0]

Это не обязательно неэффективно. Как всегда, проверьте свои данные, чтобы увидеть, что подходит.

import numpy as np, pandas as pd
from scipy.stats.mstats import mode
from collections import Counter

np.random.seed(0)

s = pd.Series(np.random.randint(0, 100, 100000))

def jez_np(s):
    _, idx, counts = np.unique(s, return_index=True, return_counts=True)
    index = idx[np.argmax(counts)]
    val = s[index]
    return val

def pir(s):
    i, r = s.factorize()
    return r[np.bincount(i).argmax()]

%timeit s.mode().iloc[0]                 # 1.82 ms
%timeit pir(s)                           # 2.21 ms
%timeit s.value_counts().index[0]        # 2.52 ms
%timeit mode(s).mode[0]                  # 5.64 ms
%timeit jez_np(s)                        # 8.26 ms
%timeit Counter(s).most_common(1)[0][0]  # 8.27 ms

ramakrishnareddy · Answer 3 · 27 августа 2018

from scipy import stats
import pandas as pd
x=[1,5,3,3,3,5,2,1,8,10,2,3,3,3]
data=pd.DataFrame({"values":x})


print(stats.mode(data["values"]))

output:-ModeResult(mode=array([3], dtype=int64), count=array([6]))

jezrael · Answer 4 · 27 августа 2018

Используйте value_counts и выберите первое значение с помощью index:

val = s.value_counts().index[0]

Или Counter.most_common:

from collections import Counter

val = Counter(s).most_common(1)[0][0]

Или просто решение:

_, idx, counts = np.unique(s, return_index=True, return_counts=True)
index = idx[np.argmax(counts)]
val = s[index]

Панды: Как получить самый частый предмет в серии панд?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

`pandas.factorize` и `numpy.bincount`

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды: Как получить самый частый предмет в серии панд?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

pandas.factorize и numpy.bincount

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

`pandas.factorize` и `numpy.bincount`