У меня есть огромный df
, который имеет doc_id
и word
, и каждый word
может содержать несколько class(Class_1,Class_2,Class_3 )
, поэтому, если слово находится в этом class
, я помещаю туда 1
или если не тогда 0
SAMFLE DF
doc_id word Class_1 Class_2 Class_3
104 saturn 1 0 1
104 survival 1 1 0
104 saturn 1 0 1
104 car 0 1 0
118 baseball 1 1 0
118 color 0 0 1
118 muscle 0 1 0
187 image 1 0 0
187 pulled 0 0 0
187 game 1 0 1
187 play 0 0 1
187 game 1 1 0
125 translation 1 0 0
125 survival 0 1 0
125 input 1 0 1
125 excellent 1 0 0
142 nice 0 1 0
142 article 0 1 0
142 original 1 0 1
142 content 0 1 0
Теперь, используя это sample DF
, я хочу count
количество вхождений word
в class(Class_1,Class_2,Class_3)
.
Всего слов в каждом class(Class_1,Class_2,Class_3)
, eg:
, например, сколько words
есть в Class_1
и, наконец, всего unique words
во всех документах.
OUTPUT DF должно быть примерно таким
doc_id word Occ_1 Occ_2 Occ_3 Totl_1 Totl_2 Totl_3 Unique_words
104 saturn 2 0 2 11 9 7 17
104 survival 1 2 0 11 9 7 17
104 car 0 1 0 11 9 7 17
118 baseball 1 1 0 11 9 7 17
118 color 0 0 1 11 9 7 17
118 muscle 0 1 0 11 9 7 17
187 image 1 0 0 11 9 7 17
187 pulled 0 0 0 11 9 7 17
187 game 2 1 1 11 9 7 17
187 play 0 0 1 11 9 7 17
125 translation 1 0 0 11 9 7 17
125 input 1 0 1 11 9 7 17
125 excellent 1 0 0 11 9 7 17
142 nice 0 1 0 11 9 7 17
142 article 0 1 0 11 9 7 17
142 original 1 0 1 11 9 7 17
142 content 0 1 0 11 9 7 17
В то время как
Occ_1
= Количество вхождений слова в Class_1
и то же самое для других Class_2
и Class_3
Totl_1
= Всего слов в Class_1
и то же самое для других Class_2
и Class_3
Unique_words
= общее количество уникальных слов во всех документах