Я анализирую этот набор данных Kaggle: https://www.kaggle.com/astronasko/transport-for-london-journey-information
Я создал DataFrame со всеми завершенными поездками, где начальная станция ('StartStn') и конечная станция ('EndStn') не совпадают, и по каждому из них есть информация.
Я создал частотный график начальных станций и отдельный частотный график конечных станций (см. Изображения ниже):
Код на рисунке 1: complete['StartStn'].value_counts()[:20].plot(kind='bar')
Код на рисунке 2 : complete['EndStn'].value_counts()[:20].plot(kind='bar')
Вот пример фрейма данных с подмножеством только этих двух столбцов:
IN:
complete[['StartStn','EndStn']].sample(10)
OUT:
StartStn EndStn
102417 Leytonstone East Ham
995246 Walthamstow Central Piccadilly Circus
1102327 Earls Court Holborn
604323 Stratford Shepherd's Bush Und
481718 Warren Street Walthamstow Central
2344106 Marble Arch Northolt
1234444 Colliers Wood Holborn
1408620 Earls Court Marble Arch
465436 Tottenham Court Rd Mile End
1580309 Woodside Park Hammersmith D
Как видите, многие станции, такие как 'Walthamstow Central', находятся в обоих столбцах.
Проблема:
Используя seaborn, matplotlib или pandas, как мне создать график частот для всех станций с оттенком StartStn и EndStn (т.е. на тех же осях)?
Лучшее, что я могу сделать s, чтобы создать частотный график со всеми станциями, комбинируя частоты в 'StartStn' и 'EndStn':
stations = pd.concat([complete['StartStn'],complete['EndStn']],axis=0)
stations.value_counts()[:10].plot(kind='bar')
Что дает мне следующий результат:
Самые популярные станции (начало или конец )
Буду очень признателен за любые предложения!
Большое спасибо,
Бени