У меня есть датафрейм:
title | cast
------------------------------
movie1 | cast1,cast2,cast3
movie2 | cast4,cast1,cast6,cast7
movie3 | cast4,cast3,cast5
pd.DataFrame({'movie': ['movie1','movie2','movie3'], 'cast': ['cast1,cast2,cast3','cast4,cast1,cast6,cast7','cast4,cast3,cast5']})
Итак, я хочу получить результат в виде:
cast | count
------------------------------
cast1 | 5
cast2 | 2
cast3 | 4
cast4 | 5
cast5 | 2
cast6 | 3
cast7 | 3
Для этого
df_cast = df.join(df.cast
.str.strip(',')
.str.split(',',expand=True)
.stack()
.reset_index(level=1,drop=True)
.rename('cast_member')).reset_index(drop=True)
Это добавит новый столбец cast_member
, в каждой ячейке которого будет только одно имя члена группы. Я пытался использовать groupby('cast_member')
, но я не уверен, что делать дальше.

Я новичок в пандах, поэтому я был бы очень признателен за ответ, хотя он мог бы быть простым.