Я создал список слов, связанных с определенной категорией. Например:
care = ["safe", "peace", "empathy"]
И у меня есть информационный кадр, содержащий речи, которые в среднем состоят из 450 слов. Я посчитал количество совпадений для каждой категории, используя эту строку кода:
df['Care'] = df['Speech'].apply(lambda x: len([val for val in x.split() if val in care]))
Что дает мне общее количество совпадений для каждой категории.
Однако мне нужно просмотреть частоты каждого слова в списке. Я попытался использовать этот код для решения моей проблемы.
df.Tal.str.extractall('({})'.format('|'.join(auktoritet)))\
.iloc[:, 0].str.get_dummies().sum(level=0)
Я пробовал разные методы, но проблема в том, что я всегда включал частичные совпадения. Например, молоток считается за ветчину.
Есть идеи, как это решить?