R- анализ текста - печать конкретного текста, который содержит биграмму - PullRequest
0 голосов
/ 22 октября 2018

Анализ текста с R.

Мой набор данных - 2000 комментариев от 2000 различных опросов.Я создал Би-граммы.Я проверил частоту слов, затем анализ кластера слов с помощью hclust(), затем сопоставление слов с findAssocs, например, findAssocs(bigram_dtm,"long time",0.2).

Например, я вижу, что «долгое время» ассоциируется с 0,66 с «чувством ожидания».

Я пытался найти его в Интернете, но пока не увенчался успехом ... Вопросы:Есть ли способ, как я могу напечатать комментарии, где эти bi_grams вместе?Можно ли как-нибудь напечатать комментарии, где "долгое время"?

Спасибо,

1 Ответ

0 голосов
/ 25 октября 2018

Я думаю, что вы ищете grep.Вы можете использовать его, чтобы получить индексы комментариев, которые вы ищете, или использовать эти индексы, чтобы получить сами комментарии.

Comments = c("I haven't seen you in a long time.",
    "There is no U in TEAM, but it does contain ME.",
    "In extreme cases, read the documentation.",
    "A big computer, a complex algorithm and a long time does not equal science.",
    "Use the source, Luke!")

grep("long time", Comments)
[1] 1 4
Comments[grep("long time", Comments)]
[1] "I haven't seen you in a long time."                                         
[2] "A big computer, a complex algorithm and a long time does not equal science."

(некоторые комментарии украдены из fortune())

...