pandas .pivot_table генерирует неправильные суммы - PullRequest
0 голосов
/ 27 марта 2020

Я наткнулся на странное явление ...

У меня есть рабочий код для генерации сводных таблиц из данных, загруженных из файлов исключений. Я наткнулся на странный случай, когда после применения pivot_table к данным я получаю другие суммированные значения, чем до pivot ...

Я генерирую данные из файлов xlsx и xls, с ними что-то делаю а затем хотите создать сводную таблицу. До разворота я делаю df.VAL1.sum() и df.VAL2.sum(), и значения совпадают со значениями, суммированными в превосходных значениях с использованием =sum(), но после запуска кода pd.pivot_table() я получаю другой результат, когда выполняю pivot.sum()

Данные имеют следующие столбцы:

COL1 COL2 COL3 time_period VAL1 VAL2 UNIT_VAL1 COL4 COL5 COL6 UNIT_VAL2 COL7 COL8 COL9

, где time_period - строка - YYYY-MM

, а вот атрибуты pivot_table:

pivot = pd.pivot_table(
    df[[
        'COL1', 'COL2', 'COL3', 'COL9', 'time_period',
        'VAL1','COL8', 'COL4', 'COL5', 'COL6', 'COL7', 'UNIT_VAL'
    ]],
    values='VAL1',
    columns='time_period',
    index=[
        'COL7', 'COL8', 'COL3', 'COL1',
        'COL5', 'COL2', 'COL9',
        'COL4', 'COL6', 'UNIT_VAL'
    ],
    aggfunc=np.sum
)

Может ли здесь быть строка time_period или порядок имен переданных столбцов? А может я тут что-то не так делаю? Я хочу отметить, что это происходит только с 2 кадрами данных, так как другие кадры работают хорошо.

Если проблема не в коде, а в моих данных, тогда я закрою или удалю вопрос.

...