Отобразить несколько значений в виде диапазонов - PullRequest
0 голосов
/ 23 января 2019

Я пытаюсь определить наиболее эффективный способ создания группы line plots, отображаемой в виде диапазона.Я надеюсь произвести что-то вроде:

enter image description here

Я постараюсь объяснить как можно больше.Извините, если я пропустил какую-либо информацию.Я предполагаю, что x-axis будет в диапазоне timestamps от hours (8 утра-9 утра-10 утра и т. Д.).Общий диапазон будет между 8:00:00 и 27:00:00.y-axis - это count значений, возникающих в любой момент времени.Диапазон в plot будет представлять значения max, min и average.

Пример df приведен ниже:

import pandas as pd
import matplotlib.pyplot as plt

d = ({
    'Time1' : ['8:00:00','9:30:00','9:40:00','10:25:00','12:30:00','1:31:00','1:35:00','2:45:00','4:50:00'],                 
    'Occurring1' : ['1','2','3','4','5','5','6','6','7'],           
    'Time2' : ['8:10:00','9:34:00','9:48:00','10:40:00','1:30:00','2:31:00','3:35:00','3:45:00','4:55:00'],                 
    'Occurring2' : ['1','2','2','3','4','5','5','6','7'], 
    'Time3' : ['9:00:00','9:34:00','9:58:00','10:45:00','10:50:00','12:31:00','1:35:00','2:15:00','3:55:00'],                 
    'Occurring3' : ['1','2','3','4','4','5','6','7','8'],                     
     })

df = pd.DataFrame(data = d)

Такэто df представляет 3 различных набора data.Время, значения и четное число записей могут различаться.

Ниже приведен первоначальный пример.Хотя я не уверен, если мне нужно переосмыслить свой подход.Подойдет ли скользящее уравнение?То, что оценивает число значений max, min, avg, возникающих за каждый час в df (8: 00: 00-9: 00: 00).

Ниже приведенополная начальная попытка:

import pandas as pd
import matplotlib.pyplot as plt

d = ({
    'Time1' : ['8:00:00','9:30:00','9:40:00','10:25:00','12:30:00','1:31:00','1:35:00','2:45:00','4:50:00'],                 
    'Occurring1' : ['1','2','3','4','5','5','6','6','7'],           
    'Time2' : ['8:10:00','9:34:00','9:48:00','10:40:00','1:30:00','2:31:00','3:35:00','3:45:00','4:55:00'],                 
    'Occurring2' : ['1','2','2','3','4','5','5','6','7'], 
    'Time3' : ['9:00:00','9:34:00','9:58:00','10:45:00','10:50:00','12:31:00','1:35:00','2:15:00','3:55:00'],                 
    'Occurring3' : ['1','2','3','4','4','5','6','7','8'],                     
     })

df = pd.DataFrame(data = d)

fig, ax = plt.subplots(figsize = (10,6))

ax.plot(df['Time1'], df['Occurring1'])
ax.plot(df['Time2'], df['Occurring2'])
ax.plot(df['Time3'], df['Occurring3'])

plt.show()

1 Ответ

0 голосов
/ 23 января 2019

Чтобы получить желаемый результат, вам нужно прыгнуть через несколько обручей. Сначала вам нужно создать регулярную временную сетку, на которую вы интерполируете y-данные (вхождения). Затем вы можете получить минимальное, максимальное и среднее из интерполированных данных. Код ниже демонстрирует, как это сделать:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy.interpolate import griddata

# Example data
d = ({
    'Time1' : ['8:00:00','9:30:00','9:40:00','10:25:00','12:30:00','1:31:00','1:35:00','2:45:00','4:50:00'],
    'Occurring1' : ['1','2','3','4','5','5','6','6','7'],
    'Time2' : ['8:10:00','9:34:00','9:48:00','10:40:00','1:30:00','2:31:00','3:35:00','3:45:00','4:55:00'],
    'Occurring2' : ['1','2','2','3','4','5','5','6','7'],
    'Time3' : ['9:00:00','9:34:00','9:58:00','10:45:00','10:50:00','12:31:00','1:35:00','2:15:00','3:55:00'],
    'Occurring3' : ['1','2','3','4','4','5','6','7','8'],
})

# Create dataframe, explicitly define dtypes
df = pd.DataFrame(data=d)
df = df.astype({
    "Time1": np.datetime64,
    "Occurring1": np.int,
    "Time2": np.datetime64,
    "Occurring2": np.int,
    "Time3": np.datetime64,
    "Occurring3": np.int,
})

# Create 1D vectors of time data
all_times = df[["Time1", "Time2", "Time3"]].values

# Representation of 1 minute in time
t_min = np.timedelta64(int(60*1e9), "ns")
# Create a regular time grid with 10 minute spacing
time_grid = np.arange(all_times.min(), all_times.max(), 10*t_min, dtype="datetime64")

# Storage buffer for interpolated occurring data
occurrences_grid = np.zeros((3, len(time_grid)))

# Loop over all occurrence data and interpolate to regular grid
for i in range(3):
    occurrences_grid[i] = griddata(
        points=df["Time%i" % (i+1)].values.astype("float"),
        values=df["Occurring%i" % (i+1)],
        xi=time_grid.astype("float"),
        method="linear"
    )

# Get min, max, and mean values of interpolated data
occ_min = np.min(occurrences_grid, axis=0)
occ_max = np.max(occurrences_grid, axis=0)
occ_mean = np.mean(occurrences_grid, axis=0)

# Plot interpolated data
plt.fill_between(time_grid, occ_min, occ_max, color="slategray")
plt.plot(time_grid, occ_mean, c="white")
plt.xticks(rotation=60)
plt.tight_layout()
plt.show()

Результат (x-метки неправильно отформатированы):

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...