У меня есть набор данных станций
map_id longitude latitude zip_code
0 40830 -87.669147 41.857908 60608
1 40830 -87.669147 41.857908 60608
2 40120 -87.680622 41.829353 60609
3 40120 -87.680622 41.829353 60609
4 41120 -87.625826 41.831677 60616
Как видите, первые четыре строки дублируются, и это не случайно. Это одни и те же станции, которые рассматриваются как отдельные станции разных линий.
Я бы хотел исключить такие дубли (для некоторых станций это может быть 2 или даже 5 строк) и рассматривать это как одну станцию.
Более того, я хотел бы создать новый столбец «Hub», в котором агрегированные строки будут обрабатываться узловой станцией. Например, как логическое (0 для обычной станции, 1 для концентратора).
Желаемый результат для приведенного выше примера с двумя случаями дублирования -> преобразован в 3 строки с 2 концентраторами.
map_id longitude latitude zip_code hub
0 40830 -87.669147 41.857908 60608 1
1 40120 -87.680622 41.829353 60609 1
1 41120 -87.625826 41.831677 60616 0
Я ценю любые советы!