Как я могу изменить этот набор данных, чтобы соответствовать RNN - PullRequest
0 голосов
/ 03 апреля 2019

Я знаю, что для RNN требуется data = (n_samples, n_timestamps, n_features), но мне трудно изменить свои данные, чтобы соответствовать этому требованию.В большинстве примеров RNN (например, в Chollets Deep Learning book) используется набор данных, в котором одна временная метка индексирует одну строку, но для моего набора данных одна временная метка индексирует несколько строк (см. Ниже).

enter image description here

Каждая временная метка представляет приблизительно 14000 выборок

Набор данных создается путем объединения значений из каждой временной метки и назначения им ключа датыНапример:

df = [[[a], [b]], [[c], [d]] ... ]
dates = ['2018-09-29 05:00:00', '2018-09-29 06:00:00', ... ]

# The dataset comes from 27 timestamps
[In] print(len(df), len(dates))
[Out] 27, 27

# pd being pandas
df = pd.concat(df, keys=pd.to_datetime(dates))

# The data has 24 features
[In] df.shape
[Out] (382393, 24)

Но я думаю, что мне нужна форма, подобная этой для обучающего набора (для 27 временных отметок):

(~14000, 27, 24)

, где каждый временной шаг представляет собой шаг из ~ 14000 строк.

Я довольно новичок в python и не знаю, как этого добиться, чтобы в конечном итоге обучить рекуррентную нейронную сеть.Буду признателен за любые указания относительно того, как мне следует обработать этот набор данных для соответствия RNN.

...