У меня есть таблица данных, в которой есть столбец нарратив , который включает короткие текстовые фрагменты. Это выглядит примерно так:
nar_ID date narrative
001 01/2017 "Today I went to the store and bought..."
002 04/2018 "This morning I visited my aunt..."
003 05/2015 "Hello. At the supermarket yesterday..."
004 11/2018 "This is a story all about how my life got..."
... ... ...
Я заинтересован в поиске в каждом повествовании нескольких ключевых слов. Допустим, я хочу знать% повествований, которые появляются в терминах «яблоко», «супермаркет», «магазин», «автомобиль», «деньги», «счастливый».
Быстрый и грязный способя с успехом попытался создать столбец для каждого термина и использовать grepl, чтобы определить, появляется ли ключевое слово в каждом повествовании. Затем я могу суммировать и делить, чтобы получить%, которые содержат определенный термин. Хотя это работает, оно повторяется и не очень надежно. В идеале я хотел бы создать матрицу терминов, которая могла бы не только показать мне, сколько раз появляется конкретный термин, но и как часто появляются комбинации из 2 терминов. Это может выглядеть примерно так:
apple supermarket store car money happy
apple .10
supermarket .05 .14
store .03 .02 .13
car .00 .09 .11 .20
money .03 .08 .09 .13 .15
happy .00 .01 .04 .04 .09 .10