Я ищу код, который позволяет мне удалять собственные стоп-слова из моего текстового корпуса, но только с определением их по началу
пример: в моем корпусе, который содержит газетные статьи, есть также дополнительные ссылки htpps .... internet, которые мне не нужны для моделирования моей темы.
Теперь я хочу удалить все «слова», начинающиеся с «https ...»
Есть ли способ, которым я могу это сделать?
Я использую пакет tm для преобразования текста и до этого момента также использовал некоторые собственные стоп-слова.
КОД
nzz <- SimpleCorpus(DirSource("private"), control = list(language="de"))
nzz <- tm_map(nzz, removePunctuation)
nzz <- tm_map(nzz, removeNumbers)
nzz <- tm_map(nzz, stripWhitespace)
**myStopwords <- c("beispiel","bemerkbar","docs","par",**
**"ipar","neue","zuercher","zeitung","http")**
**nzz <- tm_map(nzz, removeWords, c(stopwords("german"), myStopwords))****