Форматирование заголовков для агрегированного фрейма данных в Python - PullRequest
0 голосов
/ 25 сентября 2018

У меня есть датафрейм, как показано ниже: -

,issue_name,doc_id,doc_type,doc_title
0,The App keeps crashing / restarting / hanging,5b519e219b989aaf3db06917,GUIDE,Restart the device
1,The App keeps crashing / restarting / hanging,5b519e219b989aaf3db06917,GUIDE,Restart the device
2,The App keeps crashing / restarting / hanging,5b51a24d9b989aaf3db0691a,GUIDE,Fix the App
3,The App keeps crashing / restarting / hanging,5b51a24d9b989aaf3db0691a,GUIDE,Fix the App
4,The App keeps crashing / restarting / hanging,5b519e219b989aaf3db06917,GUIDE,Restart the device
5,The App keeps crashing / restarting / hanging,5b519e219b989aaf3db06917,GUIDE,Restart the device

, когда я собираю то же самое для подсчета с кодом ниже: -

dfreturns = pd.DataFrame(Guidedocdetails, columns=['issue_name','doc_id','doc_type','doc_title'])
dfreturns.to_csv('ReturnGuideDocDetails.csv')
dfreturnguidecount = dfreturns.groupby(['issue_name','doc_type','doc_title']).agg(['count'])
dfreturnguidecount.to_csv('Return_guideid_counts.csv') 

я получаю вывод, как показано ниже: enter image description here

Как убрать doc_id и дополнительные строки, идущие сверху.Я хочу вывод, как показано ниже: enter image description here

Пожалуйста, помогите мне понять, как я могу добиться того же.

После применения кода ниже: -

dfnonreturnguidecount = (dfnonreturns.groupby(['issue_name','doc_type','doc_title'])['issue_name'].count().reset_index(name='count'))
dfnonreturnguidecount.to_csv('NonReturn_guideid_counts.csv')

вывод: - enter image description here

1 Ответ

0 голосов
/ 25 сентября 2018

Я думаю, что необходимо удалить MultiIndex в столбцах использовать GroupBy.size или GroupBy.count:

returnguidecount = (dfreturns.groupby(['issue_name','doc_type','doc_title'])
                             .size()
                             .reset_index(name='count'))

returnguidecount = (dfreturns.groupby(['issue_name','doc_type','doc_title'])['issue_name']
                             .count()
                             .reset_index(name='count'))

print (returnguidecount) 
                                      issue_name doc_type           doc_title  \
0  The App keeps crashing / restarting / hanging    GUIDE         Fix the App   
1  The App keeps crashing / restarting / hanging    GUIDE  Restart the device   

   count  
0      2  
1      4  

Разница составляет count исключить значения NaN в столбце, указанном после groupby.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...