Неожиданные результаты в групповом режиме ([]). Sum () - PullRequest
0 голосов
/ 21 сентября 2019
n = df1.groupby(['Year', 'State', 'Regulator', 'Industry','Product', 'Count']).sum()     # <-- this produces the error

Описание проблемы [Привет, я думаю, что есть проблема удаления / исключения точек данных с помощью функции groupby.sum.Я выполнил следующий код (см. Выше), который в ретроспективе казался нормальным, пока я не сравнил те же данные с использованием Excel и / или простого графика набора данных.Кроме того, удаление Count приведет к сбросу значений в других столбцах df.Спасибо за проверку.]

Ожидаемый вывод

Year | 2012
State | Alabama
Regulator | SEC
Insurance/Annuity Products | 2
Stocks | 4

Year | 2012
State | Alabama
Regulator | FDIC
Debit Card | 1
Residential Mortgage | 3

Вывод pd.df

Year | 2012
State | Alabama
Regulator | FDIC
Debit Card | 1
Residential Mortgage | 1

1 Ответ

0 голосов
/ 23 сентября 2019

Проблема решена.Я запускал код, включая и исключая столбец ['Count'] из кода, который дал мне сочетание хороших и плохих результатов.По какой-то причине CSV не читается правильно, если это имеет смысл.Столбец ['Count'] был dtypes int, но, похоже, читается как строка.Поэтому я сделал .apply (pd.to_numeric), удалил «Count» и повторно запустил ячейку, которая решила проблему.

Вот окончательный код для groupby / sum:

n = df1.groupby(['Year', 'State', 'Regulator', 'Industry','Product'])['Count'].sum()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...