Я наткнулся на странное явление ...
У меня есть рабочий код для генерации сводных таблиц из данных, загруженных из файлов исключений. Я наткнулся на странный случай, когда после применения pivot_table к данным я получаю другие суммированные значения, чем до pivot ...
Я генерирую данные из файлов xlsx
и xls
, с ними что-то делаю а затем хотите создать сводную таблицу. До разворота я делаю df.VAL1.sum()
и df.VAL2.sum()
, и значения совпадают со значениями, суммированными в превосходных значениях с использованием =sum()
, но после запуска кода pd.pivot_table()
я получаю другой результат, когда выполняю pivot.sum()
Данные имеют следующие столбцы:
COL1 COL2 COL3 time_period VAL1 VAL2 UNIT_VAL1 COL4 COL5 COL6 UNIT_VAL2 COL7 COL8 COL9
, где time_period
- строка - YYYY-MM
, а вот атрибуты pivot_table:
pivot = pd.pivot_table(
df[[
'COL1', 'COL2', 'COL3', 'COL9', 'time_period',
'VAL1','COL8', 'COL4', 'COL5', 'COL6', 'COL7', 'UNIT_VAL'
]],
values='VAL1',
columns='time_period',
index=[
'COL7', 'COL8', 'COL3', 'COL1',
'COL5', 'COL2', 'COL9',
'COL4', 'COL6', 'UNIT_VAL'
],
aggfunc=np.sum
)
Может ли здесь быть строка time_period
или порядок имен переданных столбцов? А может я тут что-то не так делаю? Я хочу отметить, что это происходит только с 2 кадрами данных, так как другие кадры работают хорошо.
Если проблема не в коде, а в моих данных, тогда я закрою или удалю вопрос.