Я думаю, что вы можете получить представление о процессах анализа временных рядов, таких как скользящие средние и авторегрессия , и создать набор данных, который подходит для задачи регрессии.
Вы можете построить автокорреляцию, чтобы определить, сколько лагов нужно учитывать для следующего прогноза. Вы можете использовать функцию pandas autocorr , чтобы найти автокорреляцию до некоторой задержки и построить коррелограмму .
, скажем, ваши последние 5 значений сильно коррелированы с самым последним значением.
тогда вы можете сложить эти числа в одну строку, например, в вашем случае самое последнее значение t,
| ---------- X_train --------------------| |-- y train|
1st row -> 226,200,1169,134,117 (t-1 ,t-2,t-3,t-4,t-5) predicted value -> 239 (t)
2nd row -> 200,1169,134,117,759 (t-2 ,t-3,t-4,t-5,t-6) predicted value -> 226 (t-1)
3rd row -> 1169,134,117,759,102 (t-3 ,t-4,t-5,t-6,t-7) predicted value -> 200 (t-2)
...................................................... ...................so on..
Pandas shift метод - это использование для легкого смещения набора данных по лагу за лагом и создания набора данных. Теперь у вас есть наборы X_train и y_train. Разделите набор данных и обучите линейную модель.