Мой набор данных выглядит примерно так:
Item | Date | Category
1 | 01/01/2019 | A
1 | 02/01/2019 | A
1 | 03/01/2019 | B
2 | 10/02/2019 | A
2 | 11/02/2019 | B
2 | 12/02/2019 | B
2 | 13/01/2019 | C
3 | 07/02/2019 | A
3 | 10/02/2019 | A
Итак, это в основном набор данных панели, потому что для каждого элемента есть много дат, но они не обязательно продолжаются (см. Пункт 3). Когда предмет исчезает, это означает, что он был продан. Кроме того, коды предметов не будут повторяться, поэтому элемент 1 ссылается только на этот элемент. «Дата» имеет строковый формат. Это всего лишь образец, но в наборе данных миллионы строк.
Моя цель - найти описательную статистику, и меня особенно интересует получение среднего количества дней, которое элемент проводит в каждой категории.
Пытался использовать
df.groupby(category).mean()
, но я обнаружил, что это не совсем то, что я ищу. Есть идеи?