несоответствие между целыми данными во время разделения данных - PullRequest
1 голос
/ 22 мая 2019

Я только что прочитал на train_test_split и понял, что непреднамеренно пропускаю данные с моей текущей настройкой предварительной обработки из-за функции на основе истории def create_dataset() и, следовательно, когда я печатаю график, я вижу полностью 24 + 6 = 30 отметок времени вместо 32 + 8 = 40! Является ли логика таким историческим подходом для прогнозирования в этой раздельной ситуации? если нет, как я могу это исправить?

Y_train= data_train[index]
data_train = data_train.values
print("data_train size: {}".format(Y_train.shape))
data_train size: (40, 960)
from sklearn.model_selection import train_test_split

def create_dataHistory(dataset,data_train,look_back=1):
    dataX,dataY = [],[]
    print("Len:",len(dataset)-look_back-1)

    for i in range(len(dataset)-look_back-1):
        a = dataset[i:(i+look_back), :]
        dataX.append(a)
        dataY.append(data_train[i + look_back,  :])
    return np.array(dataX), np.array(dataY)

look_back = 10
trainX,trainY = create_dataHistory(data_train,Y_train, look_back=look_back)

trainX, testX, trainY, testY = train_test_split(trainX,trainY, test_size=0.2)
print("train size: {}".format(trainX.shape))
print("train Label size: {}".format(trainY.shape))
print("test size: {}".format(testX.shape))
print("test Label size: {}".format(testY.shape))
Len: 29
train size: (23, 10, 1440)
train Label size: (23, 960)
test size: (6, 10, 1440)
test Label size: (6, 960)
...