Удаление повторяющихся слов во всем столбце, а не только для 1 строки Rstudio - PullRequest
0 голосов
/ 26 января 2020

В настоящее время я анализирую некоторые неструктурированные данные в Rstudio и при создании wordcloud en, выполняющей функцию findasso c, я пришел к выводу, что показанный corr не всегда был верным. Например. Слово «Materiaal» было показано в качестве наиболее частого слова. Когда я выполнил findasso c для этого слова, слово stagaire появилось в результате с высоким значением corr. Когда я посмотрел на свой файл .txt, то увидел, что только в одной строке было слово «stagaire». Но в этой строке слово «Materiaal» было введено 2 раза. Поэтому я действительно хотел бы удалить все дубликаты в пределах одной строки для всего документа (1015 строк). Кто-нибудь сейчас как это сделать? Я уже прочитал другой пост, но мне это не помогло, в качестве вывода я получил list () ( Удалить повторяющиеся слова из ячеек в R ). Может кто-нибудь мне помочь? Вот текстовая строка, которую я упомянул в моем примере.

'Materiaal был изящным биннен гебоэктом. Hierdoor heeft een stagiaire van beneden het materiaal moeten brengen. Dit om kosten te besparen '

А вот мой код:

tdm <- TermDocumentMatrix(corpus)
m<-as.matrix(tdm)
v<-sort(rowSums(m),decreasing=TRUE)
words<-names(v)
d<-data.frame(word=words,freq=v)
wordcloud(d$word, d$freq, min.freq=25, random.order=FALSE, colors=brewer.pal(8,"Paired"))

head(d, 10)
                 word freq
werkbon       werkbon  254
klant           klant  173
materiaal   materiaal  150
aangemaakt aangemaakt  119
hierdoor     hierdoor  115
rapportage rapportage  114
moeten         moeten  110
monteur       monteur   87
vervangen   vervangen   82
onderhoud   onderhoud   76

Большое спасибо заранее!

С уважением,

Диана

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...