Мне нужна помощь со статистической проблемой панд.
Итак, у меня есть кадр данных, который выглядит следующим образом
user_id user_total_exercises
8 1.0
32794352 5.0
28109145 17.0
26424341 68.0
32769624 85.0
26870381 698.0
, в котором столбец user_total_exercises
соответствует общему количествуупражнения, которые пользователь выполнил за год (то есть 2018).
У меня также есть общее количество упражнений, выполненных всеми пользователями за тот же год, которое называется year_total_exercises = 874
.
.данные, я хотел бы разделить его на тертили, чтобы получить значение user_total_exercises для пользователя в тертиле 1, в тертиле 2 и в тертиле 3.
Проблема в том, что у меня нетхорошие статистические знания для создания тертилей, поэтому любая помощь в этом вопросе будет очень признательна.
Заранее большое спасибо!
ОБНОВЛЕНИЕ:
, поэтому я использовалследующее:
categories = pd.qcut(df['user_total_exercises'], 3, labels=false)
И вот результат, который я получаю:
0
0
1
1
2
2
Я не понимаю этого результата.Если бы кто-нибудь мог помочь, я был бы очень признателен.
Большое спасибо:)