Попытка извлечь данные из таблицы Excel, применить уравнение (в данном случае median()
) и создать гистограмму из этих данных.
Вот мой код:
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.max_columns', 100000)
absent = pd.read_excel('Absenteeism_at_work.xls')
col = ['Distance from Residence to Work', 'Transportation expense', 'Month of absence', 'Social smoker',
'Social drinker', 'Education']
# print(absent.loc[:741, col])
plt.title('The Mean')
plt.xlabel('Attribute of Absence')
plt.ylabel('Value')
# x = ['Distance', 'Trans Exp.', 'Month', 'Smoker', 'Drinker', 'Edu.']
x = absent.loc[:741, col].median()
x.plot(kind="bar", figsize=(5, 5))
print(x)
plt.hist(x)
# print(hist)
plt.show() # shows histogram in side-window
Вот вывод терминала:
Distance from Residence to Work 26.0
Transportation expense 225.0
Month of absence 6.0
Social smoker 0.0
Social drinker 1.0
Education 1.0
dtype: float64
и, самое главное, неверная гистограмма:
Разве «Социальный курильщик» не должен отображаться как 0? Кроме того, что это за дополнительная полоса справа от «Расстояние от места жительства до работы»? Это правильно? Спасибо!