Я построил данные, которые показывают все термины с пунктуацией и их частотой. Затем я должен убрать с них знаки препинания и проверить, не осталось ли еще знаков препинания.
newpapers1 <- tm_map(newpapers, removePunctuation)
punremove <- function(x){gsub(c('¡'|'¯'),"",x)}
punremove1 <- lapply(newpapers1, punremove)
my.check.func <- function(x){str_extract_all(x, "[[:punct:]]")}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p
Но я все равно получаю этот специальный символ:
Var1 Freq
1 ¡ 25
Есть ли способ написать функцию для удаления всех знаков препинания вместе или функцию для ее удаления?
Edit:
После проверки документов пунктуация все еще существует:
> newpapers1[[24]]$content
"В этом исследовании используется межкультурная перспектива для изучения того, насколько
зрители воспринимают и наслаждаются иностранными драмами и как это психологическое
Процесс отличается в зависимости от культурной дистанции между СМИ
и зрительская аудитория Используя удобный образец молодого корейца
Студенты колледжа это исследование в соответствии с теорией культурного дисконта
показывает, что культурная дистанция уменьшает корейскую аудиторию ¡¯ воспринимается
идентификация с драматическими персонажами, которая подрывает их удовольствие
иностранных драм В отличие от культурной теории дисконта, однако культурной
Расстояние пробуждает корейскую аудиторию ¡¯ восприятие новизны, которая
повышает их удовольствие от иностранных драм
теоретические и практические последствия этих выводов, а также
их потенциальные ограничения "