Как правильно выбрать функцию агрегирования? - PullRequest
0 голосов
/ 12 октября 2019

У меня есть два кадра данных (вход и выход). Выходной фрейм данных создается неизвестной моделью с учетом входного фрейма данных.

Я пытаюсь построить модель (для имитации неизвестной модели), чтобы предсказать "Issue_no" переменную, которая находится ввыходной фрейм данных (следовательно, у нас есть мультиклассовая классификация проблема)

Output Dataframe ,shape(30258, 6)

    node_no  Bandwidth   year   month   day     Issue_no
0    0        10         2019     6      12        7
1    0        10         2019     6      13        7
2    0        10         2019     6      14        7
3    1        10         2019     6      12        11
4    1        10         2019     6      13        11
5    1        10         2019     6      14        8
6    2        10         2019     6      12        4
...
Input Dataframe, shape (711432, 58)

    node_no  Bandwidth   year   month   day      hour ... + some numeric columns that their values change every row 
0    0        10         2019     6      12        0
1    0        10         2019     6      12        1
2    0        10         2019     6      12        2
3    0        10         2019     6      12        3
4    0        10         2019     6      12        4
5    0        10         2019     6      12        5
6    0        10         2019     6      12        6
..

проблема здесь в том, что выходной фрейм данных агрегируется в дни, а не часы, такие как входной фрейм данных.

Так что теперь я знаю, что я должен использовать groupby на Вход , чтобы иметь возможность присоединиться к нему с Выход .

  • как это сделатьЯ знаю правильную функцию агрегирования? я должен использовать среднее значение или медиану и т. д.? Как я могу проверить эту гипотезу?

  • Я запутался, почему вывод такой, разве это не значит, что произойдет потеря данных, если я произвожу какие-либо агрегации на входе? эта процедура нормальна для данных временных рядов?

...