В настоящее время я анализирую некоторые неструктурированные данные в Rstudio и при создании wordcloud en, выполняющей функцию findasso c, я пришел к выводу, что показанный corr не всегда был верным. Например. Слово «Materiaal» было показано в качестве наиболее частого слова. Когда я выполнил findasso c для этого слова, слово stagaire появилось в результате с высоким значением corr. Когда я посмотрел на свой файл .txt, то увидел, что только в одной строке было слово «stagaire». Но в этой строке слово «Materiaal» было введено 2 раза. Поэтому я действительно хотел бы удалить все дубликаты в пределах одной строки для всего документа (1015 строк). Кто-нибудь сейчас как это сделать? Я уже прочитал другой пост, но мне это не помогло, в качестве вывода я получил list () ( Удалить повторяющиеся слова из ячеек в R ). Может кто-нибудь мне помочь? Вот текстовая строка, которую я упомянул в моем примере.
'Materiaal был изящным биннен гебоэктом. Hierdoor heeft een stagiaire van beneden het materiaal moeten brengen. Dit om kosten te besparen '
А вот мой код:
tdm <- TermDocumentMatrix(corpus)
m<-as.matrix(tdm)
v<-sort(rowSums(m),decreasing=TRUE)
words<-names(v)
d<-data.frame(word=words,freq=v)
wordcloud(d$word, d$freq, min.freq=25, random.order=FALSE, colors=brewer.pal(8,"Paired"))
head(d, 10)
word freq
werkbon werkbon 254
klant klant 173
materiaal materiaal 150
aangemaakt aangemaakt 119
hierdoor hierdoor 115
rapportage rapportage 114
moeten moeten 110
monteur monteur 87
vervangen vervangen 82
onderhoud onderhoud 76
Большое спасибо заранее!
С уважением,
Диана