Как создать таблицу частот для списка ngram - PullRequest
0 голосов
/ 13 февраля 2020

У меня есть список биграмм, как указано ниже:

     test_test_bigram

   1:         I would

   2:      would like

   3:         like to

   4:        to thank

   5:       thank the
  ---                
4792: design features

4793:      features .

4794:        . Return

4795:       Return to

4796:         to text

Я преобразовал то же самое в таблицу данных, я хотел бы создать столбец для частоты каждой ngram (каждой строки). Кто-то может предложить, пожалуйста,

Кроме того, не могли бы вы пролить некоторый свет на то, как приступить к анализу настроений в R в случае Ngrams, я использую sentimentr для анализа настроений на уровне строк и анализ чувств для «мешка слов» подход (отдельные слова)

1 Ответ

0 голосов
/ 13 февраля 2020

Вы можете использовать tidyverse:

library tidyverse
test_test_bigram %>% distinct() %>% add_count()

, если ваш набор данных bigram уже имеет уникальные значения, вы можете пропустить distinct()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...