R - частотная матрица ключевых слов в нескольких корпусах - PullRequest
0 голосов
/ 17 октября 2019

У меня есть таблица данных, в которой есть столбец нарратив , который включает короткие текстовые фрагменты. Это выглядит примерно так:

nar_ID     date       narrative
001        01/2017    "Today I went to the store and bought..."
002        04/2018    "This morning I visited my aunt..."
003        05/2015    "Hello. At the supermarket yesterday..."
004        11/2018    "This is a story all about how my life got..."
...          ...                           ...

Я заинтересован в поиске в каждом повествовании нескольких ключевых слов. Допустим, я хочу знать% повествований, которые появляются в терминах «яблоко», «супермаркет», «магазин», «автомобиль», «деньги», «счастливый».

Быстрый и грязный способя с успехом попытался создать столбец для каждого термина и использовать grepl, чтобы определить, появляется ли ключевое слово в каждом повествовании. Затем я могу суммировать и делить, чтобы получить%, которые содержат определенный термин. Хотя это работает, оно повторяется и не очень надежно. В идеале я хотел бы создать матрицу терминов, которая могла бы не только показать мне, сколько раз появляется конкретный термин, но и как часто появляются комбинации из 2 терминов. Это может выглядеть примерно так:

               apple     supermarket     store    car    money     happy
apple           .10                         
supermarket     .05         .14                
store           .03         .02           .13      
car             .00         .09           .11     .20 
money           .03         .08           .09     .13     .15
happy           .00         .01           .04     .04     .09       .10
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...