У меня есть DataFrame с start_time
в правильном формате даты и времени и start_station_name
в виде строки, которая выглядит следующим образом:
start_time start_station_name
2019-03-20 11:04:16 San Francisco Caltrain (Townsend St at 4th St)
2019-04-06 14:19:06 Folsom St at 9th St
2019-05-24 17:21:11 Golden Gate Ave at Hyde St
2019-03-27 18:53:27 4th St at Mission Bay Blvd S
2019-04-16 08:45:16 Esprit Park
Теперь я хотел бы просто нанести частоту каждого имени на год в месяцах. Чтобы сгруппировать данные соответственно, я использовал это:
data = df_clean.groupby(df_clean['start_time'].dt.strftime('%B'))['start_station_name'].value_counts()
Затем я получаю что-то, что не является DataFrame, но представлено как dtype: int64:
start_time start_station_name
April San Francisco Caltrain Station 2 (Townsend St at 4th St) 4866
Market St at 10th St 4609
San Francisco Ferry Building (Harry Bridges Plaza) 4270
Berry St at 4th St 3994
Montgomery St BART Station (Market St at 2nd St) 3550
...
September Mission Bay Kids Park 1026
11th St at Natoma St 1023
Victoria Manalo Draves Park 1018
Davis St at Jackson St 1015
San Francisco Caltrain Station (King St at 4th St) 1014
Теперь я хотел бы чтобы просто построить ее в виде кластеризованной гистограммы, используя countplot()
Seaborn, только для абсолютной частоты выше 1000, где ось x представляет месяц, оттенок - это имя, а ось y должна отображать значения:
sns.countplot(data = data[data > 1000], x = 'start_time', hue = 'start_station_name')
Затем я получаю сообщение об ошибке Could not interpret input 'start_time'
, вероятно, потому что это неправильный DataFrame. Как я могу сгруппировать / сгруппировать его, чтобы визуализация работала?