Количество биграмм в векторизаторе Count не соответствует заданному количеству тональности - PullRequest
0 голосов
/ 07 мая 2020

У меня есть фрейм данных, в котором я назначил настроения для таких текстовых данных

enter image description here

Из приведенного выше фрейма данных я создал фрейм данных для униграммы и биграммы и их соответствующего количества:

Униграммы:

enter image description here

Биграммы:

enter image description here

Теперь я хочу добавить столбцы, соответствующие каждой униграмме / биграмме, каково их количество для положительных, отрицательных, нейтральных настроений, в которых эти уни / биграммы присутствовали вот так

Количество униграмм:

enter image description here

Количество биграмм:

enter image description here

Но количество в каждом столбце настроений (положительное, отрицательное, нейтральное) не суммируется равным столбцу подсчета (сумма)

До сих пор я пробовал:

sentiment_count = test['terms'].apply(lambda x: df[df['final_text'].str.contains(str(x)['PRED_SENTIMENT'].value_counts()).fillna(0)
test= pd.concat([test,sentiment_count], axis=1)

И

sentiment_count = test['terms'].apply(lambda x: df[df['final_text'].str.match(str(x), case= True)]['PRED_SENTIMENT'].value_counts()).fillna(0)
test = pd.concat([test,sentiment_count], axis=1)

, но ни один из них не дал точного количества, равного столбцу суммы. Может ли кто-нибудь помочь с этим ??

...