tm_map: Можно ли использовать функцию removewords с моими собственными стоп-словами, зарегистрированными как текстовый файл? - PullRequest
1 голос
/ 28 октября 2019

Я использую пакет R tm для анализа текста в группе facebook и обнаружил, что функция удаления слов не работает для меня. Я пытался объединить французские стоп-слова со своими, но они все еще появляются. Поэтому я создаю файл с именем «french.txt» со своим собственным списком, как в следующей команде:

nom_fichier <- "Analyse textuelle/french.txt"
my_stop_words <- readLines(nom_fichier, encoding="UTF-8")

Вот данные для интеллектуального анализа текста:

text <- readLines(groupe_fb_ief, encoding="UTF-8")```
docs <- Corpus(VectorSource(text))
inspect(docs) 

ВотКоманды tm_map:

docs <- tm_map(docs, tolower)

docs <- tm_map(docs, stripWhitespace)

docs <- tm_map(docs, removePunctuation)

docs <- tm_map(docs, removeNumbers)

docs <- tm_map(docs, removeWords, my_stop_words)

Применяя это, он все еще не работает, и я не понимаю, почему. Я даже пытаюсь изменить порядок команд без результата.

У вас есть идеи? Можно ли изменить французские стоп-слова в R? Где находится этот список?

Спасибо !!

1 Ответ

0 голосов
/ 28 октября 2019

Вместо того, чтобы использовать RemoveWords, я обычно использую anti_join () для удаления всех стоп-слов.

library(tidytext)
my_stop_words <- my_stop_words  %>%
  unnest_tokens(output = word, input = text, token = "words")

# anti_join
anti_join(docs,my_stop_words, by = "word")

Это если столбец, содержащий ваш корпус, называется "словом". Надеюсь это поможет.

...