Как построить модель прогнозирования временных рядов LSTM в python? - PullRequest
0 голосов
/ 07 февраля 2019

Я пытаюсь построить модель LSTM, данные состоят из date_time и некоторых числовых значений.При подгонке модели она получает

"ValueError: Error when checking input: expected lstm_1_input to have 3 dimensions, but got array with shape (10, 1)" error.

Пример данных: «date.csv» выглядит так:

Date

06/13/2018 07:20:04 PM

06/13/2018 07:20:04 PM

06/13/2018 07:20:04 PM

06/13/2018 07:22:12 PM

06/13/2018 07:22:12 PM

06/13/2018 07:22:12 PM

06/13/2018 07:26:20 PM

06/13/2018 07:26:20 PM

06/13/2018 07:26:20 PM

06/13/2018 07:26:20 PM

«tasks.csv» выглядит так:

Tasks

2

1

2

1

4

2

3

2

3

4
    date = pd.read_csv('date.csv')
    task = pd.read_csv('tasks.csv')
    model = Sequential()
    model.add(LSTM(24,return_sequences=True,input_shape=(date.shape[0],1)))
    model.add(Dense(1))
    model.compile(loss="mean_squared_error", optimizer="adam")
    model.fit(date, task,  epochs=100,  batch_size=1,  verbose=1)

Как мне прогнозировать результат?

1 Ответ

0 голосов
/ 07 февраля 2019

Есть некоторые проблемы с этим примером кода.Отсутствуют предварительная обработка, кодирование меток, целевое кодирование и неправильная функция потерь.Я кратко опишу возможные решения, но для получения дополнительной информации и примеров вы можете прочитать учебник о временных рядах и прогнозировании.

Решение конкретной проблемы, которая порождает эту ошибку ValueError: LSTM требуеттрехмерный ввод.Форма этого (batch_size, input_length, dimension).Таким образом, требуется ввод значений не менее (batch_size, 1, 1), но date.shape равен (10, 1).Если вы сделаете

date = date.values.reshape((1, 10, 1)) 

- это решит эту проблему, но приведет к лавине других проблем:

date = date.values.reshape((1, 10, 1))

model = Sequential()
model.add(LSTM(24, return_sequences=True, input_shape=(date.shape[1], 1)))
print(model.layers[-1].output_shape)
model.add(Dense(1))
model.compile(loss="mean_squared_error", optimizer="adam")
model.fit(date, task,  epochs=100,  batch_size=1,  verbose=1)

ValueError: Входные массивы должны иметь одинаковое количествообразцы в качестве целевых массивов.Найдено 1 входных образцов и 10 целевых образцов.

К сожалению, нет ответов на другие вопросы из-за недостатка информации.Но некоторые рекомендации общего назначения.

Предварительная обработка
К сожалению, вы, вероятно, не можете просто изменить форму, потому что прогнозирование - это не менее сложная вещь.Вы должны выбрать какой-нибудь период, исходя из того, как вы будете прогнозировать следующую задачу.Хорошая новость, есть периодические измерения, но для каждого случая есть несколько задач, которые затрудняют решение задачи.

Особенности
У вас должны быть функции, чтобы предсказать что-то.Непонятно, что такое функция в этом случае, но, возможно, не дата и время.Даже предыдущая задача может быть функцией, но вы не можете использовать только идентификатор задачи, для этого требуется некоторое встраивание , так как это не непрерывное числовое значение, а метка.

Встраивание
Существует keras.layers.Embedding для встраивания чего-либо в керас.

Если число задач равно 4 (1, 2, 3, 4) и форма выходного вектора есть, вы можете использовать этот способ:

model = Sequential()
model.add(Embedding(4 + 1, 10, input_length=10))  # + 1 to deal with non-zero indexing
# ... the reso of the code is omitted

- первый аргумент- это число встроенных элементов, вторая - это выходная форма, а последняя - это длина ввода (10 - просто примерное значение).

Кодировка метки
Вероятно, метки задач просто метки , между ними нет разумного расстояния или метрики - то есть нельзя сказать, что 1 ближе к 2, чем к 4 и т. Д. Этот случай mse бесполезен, но, к счастью, существует функция вероятностных потерь с именем категорическая кросс-энтропия , которая помогает предсказать категорию данных.

Чтобы использовать ее, вы должны бинаризировать метки:

import numpy as np

def binarize(labels):
    label_map = dict(map(reversed, enumerate(np.unique(labels))))
    bin_labels = np.zeros((len(labels), len(label_map)))
    bin_labels[np.arange(len(labels)), [label_map[label] for label in labels]]  = 1
    return bin_labels, label_map

binarized_task, label_map = binarize(task)
binarized_task
Out:
array([[0., 1., 0., 0.],
        [1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [1., 0., 0., 0.],
        [0., 0., 0., 1.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]]
label_map
Out:
{1: 0, 2: 1, 3: 2, 4: 3}

- бинаризованные метки и коллекция "позиция задачи в двоичных метках ".
Конечно, вы должны использовать кросс-энтропийные потери в модели с бинаризованными метками.Кроме того, последний уровень должен использовать функцию активации softmax (объясняется в учебнике по кросс-энтропии; вскоре вы имеете дело с вероятностью метки, поэтому она должна быть суммирована до единицы, и softmax изменяет значения предыдущего слоя в соответствии с этим требованием):

model.add(Dense(4, activation='softmax'))
model.compile(loss="categorical_crossentropy", optimizer="adam")
model.fit(date, binarized_task, epochs=100, batch_size=1,  verbose=1)

"Завершено", но, возможно, бессмысленный пример
В этом примере используются все перечисленные выше вещи, ноон не претендует на полноту или полезность - но, я надеюсь, он хотя бы объяснителен.

import datetime
import numpy as np
import pandas as pd
import keras
from keras.models import Sequential
from keras.layers import Dense, LSTM, Flatten, Embedding

# Define functions

def binarize(labels):
    """
    Labels of shape (size,) to {0, 1} array of the shape (size, n_labels)
    """
    label_map = dict(map(reversed, enumerate(np.unique(labels))))
    bin_labels = np.zeros((len(labels), len(label_map)))
    bin_labels[np.arange(len(labels)), [label_map[label] for label in labels]]  = 1
    return bin_labels, label_map


def group_chunks(df, chunk_size):
    """
    Group task date by periods, train on some columns and use lask ('Tasks') as the target. Function uses 'Tasks' as a features.
    """
    chunks = []
    for i in range(0, len(df)-chunk_size):
        chunks.append(df.iloc[i:i + chunk_size]['Tasks'])  # slice period, append 
        chunks[-1].index = list(range(chunk_size))
    df_out = pd.concat(chunks, axis=1).T  
    df_out.index = df['Date'].iloc[:(len(df) - chunk_size)]
    df_out.columns = [i for i in df_out.columns[:-1]] + ['Tasks']
    return df_out


# I modify this date for simlicity - now it's a single entry for each datetime
date = pd.DataFrame({
    "Date" : [
        "06/13/2018 07:20:00 PM",
        "06/13/2018 07:20:01 PM",
        "06/13/2018 07:20:02 PM",
        "06/13/2018 07:20:03 PM",
        "06/13/2018 07:20:04 PM",
        "06/13/2018 07:20:05 PM",
        "06/13/2018 07:20:06 PM",
        "06/13/2018 07:20:07 PM",
        "06/13/2018 07:20:08 PM",
        "06/13/2018 07:20:09 PM"]
})

task = pd.DataFrame({"Tasks": [2, 1, 2, 1, 4, 2, 3, 2, 3, 4]})
date['Tasks'] = task['Tasks']
date['Date'] = date['Date'].map(lambda x: datetime.datetime.strptime(x, "%m/%d/%Y %I:%M:%S %p"))  # formatting datetime as datetime


chunk_size = 4
df = group_chunks(date, chunk_size)
# print(df)
"""
                     0  1  2  Tasks
Date                               
2018-06-13 19:20:00  2  1  2      1
2018-06-13 19:20:01  1  2  1      4
2018-06-13 19:20:02  2  1  4      2
2018-06-13 19:20:03  1  4  2      3
2018-06-13 19:20:04  4  2  3      2
2018-06-13 19:20:05  2  3  2      3

"""
# extract the train data and target
X = df[list(range(chunk_size-1))].values
y, label_map = binarize(df['Tasks'].values)

# Create a model, compile, fit
model = Sequential()
model.add(Embedding(len(np.unique(X))+1, 24, input_length=X.shape[-1]))
model.add(LSTM(24, return_sequences=True, input_shape=(date.shape[1], 1)))
model.add(Flatten())
model.add(Dense(4, activation='softmax'))
model.compile(loss="categorical_crossentropy", optimizer="adam")
history = model.fit(X, y,  epochs=100,  batch_size=1,  verbose=1)
Out:
Epoch 1/100
6/6 [==============================] - 1s 168ms/step - loss: 1.3885
Epoch 2/100
6/6 [==============================] - 0s 5ms/step - loss: 1.3811
Epoch 3/100
6/6 [==============================] - 0s 5ms/step - loss: 1.3781
...

- и т. д. Работает как-то, но я еще раз советую: прочитайте общее число, указанное выше(или любой другой учебник по прогнозированию).Потому что, например, в этом примере я не охватил область тестирования / проверки.

...