Question

У меня есть таблица ниже, которую я хотел бы построить на сгруппированной гистограмме.Я хочу, чтобы ось X была time_period, а ось Y - death_licenses, и я хочу, чтобы ее классифицировали по civic_centre.Как видите, для каждого отдельного time_period в civic_centre есть четыре категориальных варианта.

+-------------+--------------+----------------+
| time_period | civic_centre | death_licenses |
+-------------+--------------+----------------+
| 2011-01-01  | ET           |            410 |
| 2011-01-01  | NY           |            681 |
| 2011-01-01  | SC           |            674 |
| 2011-01-01  | TO           |            297 |
| 2011-02-01  | ET           |            307 |
| 2011-02-01  | NY           |            388 |
| 2011-02-01  | SC           |            407 |
| 2011-02-01  | TO           |            223 |
| 2011-03-01  | ET           |            349 |
| 2011-03-01  | NY           |            655 |
| 2011-03-01  | SC           |            400 |
| 2011-03-01  | TO           |            185 |
| 2011-04-01  | ET           |            373 |
| 2011-04-01  | NY           |            640 |
| 2011-04-01  | SC           |            457 |
| 2011-04-01  | TO           |             42 |
+-------------+--------------+----------------+

Вот работа, которую я проделал до сих пор:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

class Utility:

@staticmethod
def read_csv(csv, number_columns=[], categorical_columns=[], date_columns=[], drop_columns_if_empty=[], drop_duplicate_columns=[]):
    df = pd.read_csv(csv, na_values=['--', ''])
    df.rename(columns=lambda x: x.strip().replace('"', '').replace(' ', '_').replace('__', '_').lower(),
              inplace=True)
    df[number_columns] = df[number_columns].astype(str).replace({'[\$,)]': '', ' ': '', '[(]': '-'}, regex=True)
    for col in number_columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')
    for col in date_columns:
        df[col] = pd.to_datetime(df[col], errors='coerce')

    df.dropna(subset=drop_columns_if_empty, how='any', inplace=True)
    df = df.applymap(lambda x: x.strip() if type(x) is str else x)
    if (len(drop_duplicate_columns) > 1):
        df = df.drop_duplicates(drop_duplicate_columns, keep='last')
    for col in categorical_columns:
        df[col] = pd.Categorical(df[col])

    return df

df = Utility.read_csv('http://opendata.toronto.ca/clerk/registry.service/death.csv', number_columns=['death_licenses'], categorical_columns=['place_of_death', 'civic_centre'], date_columns=['time_period'])
df.sort_values(['time_period', 'civic_centre'], ascending=[True, False])
df2 = df.groupby(['time_period', 'civic_centre'])['death_licenses'].agg('sum').reset_index()

Iхочу сделать что-то вроде этого:

smj · Answer 1 · 11 июня 2018

Вот пара вариантов построения (если я вас правильно понял), я предпочитаю первый сам.

% matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from pandas import Series, DataFrame

civics = ([i for i in ['ET', 'NY', 'SC', 'TO']] * 4)
civics.sort()

data = DataFrame({
    'time_period': Series([pd.to_datetime('2011-0{}-01'.format(i)) for i in 
range(1, 5)] * 4),
    'civic_centre': Series(civics),
    'death_licenses': Series(np.random.randint(400, 500, 16))
})

# As four series.

pd.pivot_table(data, index = 'time_period', columns = 'civic_centre', values 
= 'death_licenses').plot();

# As a grouped bar plot.

pd.pivot_table(data, index = 'civic_centre', columns = 'time_period', values 
= 'death_licenses').plot(kind = 'bar')

Дает эти два графика:

Pandas Plot Сгруппированная гистограмма по времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pandas Plot Сгруппированная гистограмма по времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов