У меня есть два кадра данных (вход и выход). Выходной фрейм данных создается неизвестной моделью с учетом входного фрейма данных.
Я пытаюсь построить модель (для имитации неизвестной модели), чтобы предсказать "Issue_no" переменную, которая находится ввыходной фрейм данных (следовательно, у нас есть мультиклассовая классификация проблема)
Output Dataframe ,shape(30258, 6)
node_no Bandwidth year month day Issue_no
0 0 10 2019 6 12 7
1 0 10 2019 6 13 7
2 0 10 2019 6 14 7
3 1 10 2019 6 12 11
4 1 10 2019 6 13 11
5 1 10 2019 6 14 8
6 2 10 2019 6 12 4
...
Input Dataframe, shape (711432, 58)
node_no Bandwidth year month day hour ... + some numeric columns that their values change every row
0 0 10 2019 6 12 0
1 0 10 2019 6 12 1
2 0 10 2019 6 12 2
3 0 10 2019 6 12 3
4 0 10 2019 6 12 4
5 0 10 2019 6 12 5
6 0 10 2019 6 12 6
..
проблема здесь в том, что выходной фрейм данных агрегируется в дни, а не часы, такие как входной фрейм данных.
Так что теперь я знаю, что я должен использовать groupby на Вход , чтобы иметь возможность присоединиться к нему с Выход .
как это сделатьЯ знаю правильную функцию агрегирования? я должен использовать среднее значение или медиану и т. д.? Как я могу проверить эту гипотезу?
Я запутался, почему вывод такой, разве это не значит, что произойдет потеря данных, если я произвожу какие-либо агрегации на входе? эта процедура нормальна для данных временных рядов?