Я использую функцию Timeseriessplit из sklearn для создания наборов поездов и тестов.
для перекрестной проверки временных рядов. Идея, например, заключается в использовании n-1 точек данных для обучения и n-й точки данных для тестирования. Этот сплит нужно всегда заказывать, так как это временная серия.
Однако я не понимаю, почему набор данных X в примере отформатирован следующим образом:
from sklearn.model_selection import TimeSeriesSplit
import numpy as np
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4])
tscv = TimeSeriesSplit(n_splits=3)
print(tscv)
for train_index, test_index in tscv.split(X):
print("TRAIN:", train_index, "TEST:", test_index)
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
Какова логика предварительной обработки данных как X = np.array ([[1, 2], [3, 4], [1, 2], [3, 4]])?
И конечно я читаю заметки на странице, но все равно не понимаю