Я наткнулся на панд , и это выглядит идеально для простых вычислений, которые я хотел бы сделать.У меня есть опыт работы в SAS, и я подумал, что он заменит proc freq - похоже, он будет масштабироваться до того, что я захочу сделать в будущем.Однако я просто не могу разобраться с простой задачей (я не уверен, должен ли я смотреть на pivot/crosstab/indexing
- должен ли я иметь Panel
или DataFrames
и т. Д.)).Может ли кто-нибудь дать мне несколько советов о том, как сделать следующее:
У меня есть два файла CSV (один для 2010 года, один для 2011 года - простые данные транзакций) - столбцы категории и суммы
2010:
AB,100.00
AB,200.00
AC,150.00
AD,500.00
2011:
AB,500.00
AC,250.00
AX,900.00
Они загружаются в отдельные объекты DataFrame.
Я хотел бы получить категорию,сумма категории и частота категории, например:
2010:
AB,300.00,2
AC,150.00,1
AD,500.00,1
2011:
AB,500.00,1
AC,250.00,1
AX,900.00,1
Не могу понять,Я должен использовать pivot/crosstab/groupby/an index
и т.д ... Я могу получить сумму или частоту - я не могу получить и то и другое ... Это становится немного сложнее, потому что я хотел бы делать это месяц за месяцемоснова, но я думаю, что если кто-то будет так любезен, чтобы указать мне правильную технику / направление, я смогу пойти оттуда.