Я использую панд, и у меня есть датафрейм с именем orders
. Он имеет 3 столбца: id
, user_id
и order_timestamp
.
. Первый шаг, который я хотел бы сделать, - это groupby
user_id
и вернуть min
из order_timestamp
ивернуть всю строку, которая соответствует min order_timestamp (id, user_id и min order_timestamp). Это говорит мне, какие идентификаторы заказа являются "первыми заказами". Мы назовем это first_orders
фреймом данных.
Следующий шаг, который я хотел бы сделать, - это сравнить first_orders
с фреймом данных заказов и создать новый фрейм данных, который исключает первые заказы. Можно назвать это non_first_orders
Какой самый эффективный способ сделать это?
orders
выглядит так
id user_id order_timestamp
1 10 1/1/19
2 10 1/10/19
3 10 2/1/18
4 11 10/2/19
5 11 1/1/19
6 11 3/1/19
7 12 6/9/19
8 12 5/1/18
9 12 3/12/19
Первые заказы должны выглядеть следующим образомid user_id order_timestamp
3 10 2/1/18
5 11 1/1/19
8 12 5/1/19
наконец, non_first_orders
должно выглядеть так
id user_id order_timestamp
1 10 1/1/19
2 10 1/10/19
4 11 10/2/19
6 11 3/1/19
7 12 6/9/19
9 12 3/12/19