Есть ли способ удалить все наречия и местоимения из строки в R? - PullRequest
0 голосов
/ 16 апреля 2020

Я новичок в R. При попытке выполнить моделирование topi c мне нужно удалить все несоответствующие слова из набора данных. Есть ли функция, которая может найти слова, которые принадлежат к определенной части речи?

1 Ответ

0 голосов
/ 16 апреля 2020

Вы можете использовать

gsub(pattern, replacement, x)

, где x - ваша символьная переменная, «pattern» - слово, которое вы хотите заменить, а «replace» будет «». Однако R не знает, что такое местоимение. Таким образом, вы должны будете сказать это, написав список всех возможных местоимений на языке, на котором написана ваша строка символов. Затем вам придется повторить удаление для всех местоимений (или любых других слов), как это:

x <- "This is a character string in which I tell you how he deleted pronouns."
unwant <- c(
"I", "he", "she", "it",...)
unwanted <- c(paste(" ", unwanted, " ", sep = ""), paste(" ", unwanted, ".", sep = ""), paste(" ", unwanted, "!", sep = ""), paste(" ", unwanted, "?", sep = ""), paste(" ", unwanted, ",", sep = "")
)

result <- x
for(i in 1:NROW(unwanted)){
result <- gsub(unwanted[i], " ", result)
}

print(result)

Очевидно, что "..." означает, что вам придется вставить все слова, которые вам не нужны, но я предполагаю, что у inte rnet есть списки всех местоимений где-то. Изменить: Вы должны вставить пустые пробелы перед и после слов, чтобы R не вырезал буквы из других слов, где они встречаются. Я добавил это через функцию paste, где ваши местоимения изменяются несколькими способами, например, если они встречаются в конце предложения.

...