Question

Рассмотрим следующие данные:

s = pd.Series([1, 1, 1, 2])
pd.qcut(s, 2, labels=False)

Я бы хотел получить равновероятные группы, то есть [0, 0, 1, 1]. Вместо этого qcut может вызвать исключение или вернуть [0, 0, 0, 0] (в зависимости от дубликата kwarg).

Я получил равновероятные группы, слегка повредив данные, то есть:

def my_qcut(s, *args, **kwargs):
    disturbed = np.array(s) + np.random.rand(len(s)) / 1000
    return pd.qcut(disturbed, *args, **kwargs)

Хотя это, кажется, работает, я чувствую, что это слишком глупо. Кто-нибудь может посоветовать мне детерминированный способ расщепления на равновероятные группы?

piRSquared · Answer 1 · 28 августа 2018

Использование Numpy's `argsort` для ранга

def qcut(s, n):
  k = len(s)
  a = s.values.argsort()
  b = np.empty_like(a)
  b[a] = np.arange(k) * n // k
  return pd.Series(b, s.index)

qcut(s, 2)

0    0
1    0
2    1
3    1
dtype: int64

Внедрение qcut для разделения на равновероятные группы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Использование Numpy's `argsort` для ранга

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Внедрение qcut для разделения на равновероятные группы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Использование Numpy's argsort для ранга

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов

Использование Numpy's `argsort` для ранга