Как построить две гистограммы рядом со столбцами из разных фреймов данных в pandas - PullRequest
1 голос
/ 13 апреля 2020

Я хочу построить две гистограммы рядом, используя matplotlib / seaborn для двух стран, подтвержденных Covid-19: Италия и Индия для сравнения. Однако после попытки многих методов я не мог достигнуть проблемы. Подтвержденные случаи обеих стран происходят из двух разных фреймов данных.

Источник данных

Я хочу построить столбец «Даты» на оси X и «Количество подтвержденных случаев» на оси Y.
Прикрепление изображений моего код для справки.
PS: я новичок в области визуализации данных и pandas тоже.

 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import seaborn as sns
 df = pd.read_csv('https://raw.githubusercontent.com/datasets/covid- 
 19/master/data/countries-aggregated.csv', parse_dates = ['Date'])
 df.head(5)

 ind_cnfd = df[['Date', 'Country', 'Confirmed']]
 ind_cnfd = ind_cnfd[ind_cnfd['Country']=='India']
 italy_cnfd = df[['Date', 'Country', 'Confirmed']]
 italy_cnfd = italy_cnfd[italy_cnfd['Country'] == 'Italy']

Ожидаемый выходной результат: с датами на оси x и подтвержденными случаями на оси y image

1 Ответ

0 голосов
/ 13 апреля 2020

Вот пример того, что вы можете собрать, используя matplotlib с seaborn. Не стесняйтесь поиграть с настройками осей, расстоянием и т. Д., Просматривая документацию по matplotlib / seaborn. Обратите внимание, что я сделал import matplotlib.pyplot as plt, только если вы хотите запустить любой из этого кода из вашей записной книжки. Кстати, я не пользовался морским рожком.

При желании вы можете отобразить подтвержденные случаи в логической шкале y со строкой: plt.yscale('log')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv('https://raw.githubusercontent.com/datasets/covid-19/master/data/countries-aggregated.csv',
    parse_dates = ['Date'])

# select the Date, Country, Confirmed features from country, with reset of index
ind_cnfd = df[df.Country == 'India']
ind_cnfd = ind_cnfd[['Date', 'Confirmed']].reset_index(drop = True)
ind_cnfd = ind_cnfd.rename(columns = {'Confirmed': 'Confirmed Cases in India'})

italy_cnfd = df[df.Country == 'Italy']
italy_cnfd = italy_cnfd[['Date', 'Confirmed']].reset_index(drop = True)
italy_cnfd = italy_cnfd.rename(columns = {'Confirmed': 'Confirmed Cases in Italy'})

# combine dataframes together, turn the date column into the index
df_cnfd = pd.concat([ind_cnfd.drop(columns = 'Date'), italy_cnfd], axis = 1)
df_cnfd['Date'] = df_cnfd['Date'].dt.date
df_cnfd.set_index('Date', inplace=True)

# make a grouped bar plot time series
ax = df_cnfd.plot.bar()

# show every other tick label
for label in ax.xaxis.get_ticklabels()[::2]:
    label.set_visible(False)

# add titles, axis labels
plt.suptitle("Confirmed COVID-19 Cases over Time", fontsize = 15)
plt.xlabel("Dates")
plt.ylabel("Number of Confirmed Cases")
plt.tight_layout()
# plt.yscale('log')

plt.show()

enter image description here

...