Пробный поезд разделен на основе даты в Python, возможно ли это? - PullRequest
0 голосов
/ 03 апреля 2020

Я хочу разделить данные на основе даты следующим образом:

Данные следует разделить на:

  • поезд (июнь 2007 г. - май 2015 г.) данные
  • тест (июнь 2015 - De c 2015) data

Может ли кто-нибудь помочь мне с этим кодом?

1 Ответ

0 голосов
/ 03 апреля 2020

Вы должны быть более точными c, предоставив образец данных, которые вы пытаетесь разделить.

Типичная ситуация - когда у вас есть кадр данных df со столбцом date или timestamp. Затем, чтобы получить разделение на поезд-тест, достаточно определить маску, такую ​​как:

import pandas as pd

break_date = pd.Timestamp("2015-06-01 00:00:00")
X = df[df["timestamp"] <= break_date]
y = df[df["timestamp" > break_date]

Осторожно, при разбивке данных на подмножества поездов и тестов существуют тонкости в случае временных рядов , Например, см. здесь .

...