Удалить специальный символ из корпуса - PullRequest
0 голосов
/ 06 ноября 2018

Я построил данные, которые показывают все термины с пунктуацией и их частотой. Затем я должен убрать с них знаки препинания и проверить, не осталось ли еще знаков препинания.

newpapers1 <- tm_map(newpapers, removePunctuation)

punremove <- function(x){gsub(c('¡'|'¯'),"",x)}
punremove1 <- lapply(newpapers1, punremove)
my.check.func <- function(x){str_extract_all(x, "[[:punct:]]")}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

Но я все равно получаю этот специальный символ:

  Var1 Freq
1    ¡   25

Есть ли способ написать функцию для удаления всех знаков препинания вместе или функцию для ее удаления?

Edit: После проверки документов пунктуация все еще существует:

> newpapers1[[24]]$content

"В этом исследовании используется межкультурная перспектива для изучения того, насколько зрители воспринимают и наслаждаются иностранными драмами и как это психологическое Процесс отличается в зависимости от культурной дистанции между СМИ и зрительская аудитория Используя удобный образец молодого корейца Студенты колледжа это исследование в соответствии с теорией культурного дисконта показывает, что культурная дистанция уменьшает корейскую аудиторию ¡¯ воспринимается идентификация с драматическими персонажами, которая подрывает их удовольствие иностранных драм В отличие от культурной теории дисконта, однако культурной Расстояние пробуждает корейскую аудиторию ¡¯ восприятие новизны, которая повышает их удовольствие от иностранных драм теоретические и практические последствия этих выводов, а также их потенциальные ограничения "


1 Ответ

0 голосов
/ 06 ноября 2018

Вы можете использовать gsub для удаления знаков препинания, как это.

newpapers1 <- tm_map(newpapers, removePunctuation)

my.check.func <- function(x){gsub('[[:punct:]]+','',x)}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

Надеюсь, это поможет.

...