Определение собственных стоп-слов по их началу - PullRequest
0 голосов
/ 30 апреля 2018

Я ищу код, который позволяет мне удалять собственные стоп-слова из моего текстового корпуса, но только с определением их по началу

пример: в моем корпусе, который содержит газетные статьи, есть также дополнительные ссылки htpps .... internet, которые мне не нужны для моделирования моей темы.

Теперь я хочу удалить все «слова», начинающиеся с «https ...»

Есть ли способ, которым я могу это сделать?

Я использую пакет tm для преобразования текста и до этого момента также использовал некоторые собственные стоп-слова.

КОД
nzz <- SimpleCorpus(DirSource("private"), control = list(language="de"))

nzz <- tm_map(nzz, removePunctuation)
nzz <- tm_map(nzz, removeNumbers)
nzz <- tm_map(nzz, stripWhitespace)
**myStopwords <- c("beispiel","bemerkbar","docs","par",**
                 **"ipar","neue","zuercher","zeitung","http")**

**nzz <- tm_map(nzz, removeWords, c(stopwords("german"), myStopwords))****
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...