R: сохранить верхний регистр с TermDocumentMatrix - PullRequest
0 голосов
/ 08 мая 2020

Я хочу создать wordcloud с пакетом wordcloud. Моя проблема в том, что я хочу сохранить верхний регистр в начале слов, но все буквы автоматически преобразуются в нижний регистр.

Насколько я понимаю, это происходит, когда я использую функцию TermDocumentMatrix. Есть ли возможность запретить функции преобразовывать все буквы в нижний регистр?

1 Ответ

0 голосов
/ 08 мая 2020

Вы можете запретить TermDocumentMatrix преобразовывать все в нижний регистр, указав tolower=FALSE в вашем контрольном списке. Поскольку вы не предоставляете никаких данных, я проиллюстрирую их примерами данных, предоставленными в пакете tm.

library(wordcloud)
library(tm)
data(crude)

tdm = TermDocumentMatrix(crude, 
    control=list(removePunctuation=T, tolower=F, stopwords=T))
WordFreq = slam::row_sums(tdm[tdm$dimnames$Terms, ])
FrequentWords = tail(sort(WordFreq), 20)
wordcloud(names(FrequentWords), FrequentWords)

Word Cloud

...