Я сделал новую функцию под названием «Час», где я извлек только час из данных временной метки.
df['hour'] = df.index.hour
df.hour.head(10)
Sample :
Timestamp
2018-10-01 00:00:00 0
2018-10-01 00:15:00 0
2018-10-01 00:30:00 0
2018-10-01 00:45:00 0
2018-10-01 01:00:00 1
2018-10-01 01:15:00 1
2018-10-01 01:30:00 1
2018-10-01 01:45:00 1
2018-10-01 02:00:00 2
2018-10-01 02:15:00 2
Name: hour, dtype: int64
Когда я загружаю это как функцию в мою модель линейной регрессии, нужно ли мне ее горячим кодированием?
Мысли в моем уме:
Даже если они категоричны, не больше ли 9 (9 утра), чем 8 (8 утра)?23 (23:00) больше 0 (12:00) - не соответствует действительности.
Так что я предполагаю, что мне нужно горячее кодирование.Каковы четкие правила, когда я должен и не должен горячо кодировать?