У меня есть датафрейм из 16 миллионов строк заказов. Некоторые заказы имеют несколько строк, в которых номер заказа, дата и дата отгрузки совпадают, но продукт отличается. Я хотел бы создать новый фрейм данных с уникальными номерами заказов и добавить новый столбец, содержащий количество дублированных номеров заказов.
Order Order_Date Ship_Date
1 1113 2018-10-25 2018-10-29
2 1140 2018-11-01 2018-11-02
3 1113 2018-10-25 2018-10-29
4 1113 2018-10-25 2018-10-29
Новый фрейм данных должен содержать уникальные значения вместе с новым столбцом NumLines. который считает повторяющиеся номера заказа. Желаемый результат ниже:
Order Order_Date Ship_Date NumLines
1 1113 2018-10-25 2018-10-29 3
2 1140 2018-11-01 2018-11-02 1