R - Как упростить очистку этого текста от специальных символов? - PullRequest
0 голосов
/ 28 октября 2018

Я подозреваю, что есть способ упростить предварительную обработку этого текста.Однако я не смог найти решение, как объединить все эти замены символов в одну строку.Следовательно, чтобы избежать всех повторений в моем текущем решении (см. Ниже):

Encoding(posts2$caption_clean) <- "UTF-8"
posts2$caption_clean <- iconv(posts2$caption_clean, "latin1", "UTF-8")
posts2$caption_clean <- gsub("Ã\\S*","",posts2$caption_clean) 
posts2$caption_clean <- gsub("â\\S*","",posts2$caption_clean)
posts2$caption_clean <- gsub("ð\\S*","",posts2$caption_clean)
posts2$caption_clean <- gsub("Â\\S*","",posts2$caption_clean) 
posts2$caption_clean <- gsub("å\\S*","",posts2$caption_clean)
posts2$caption_clean <- gsub("Ð\\S*","",posts2$caption_clean)
posts2$caption_clean <- gsub("Ñ\\S*","",posts2$caption_clean)
posts2$caption_clean <- gsub("Ù\\S*","",posts2$caption_clean)
posts2$caption_clean <- gsub("Ø\\S*","",posts2$caption_clean) 
posts2$caption_clean <- gsub("Ú\\S*","",posts2$caption_clean) 
posts2$caption_clean <- gsub("ì\\S*","",posts2$caption_clean) 
posts2$caption_clean <- gsub("Õ\\S*","",posts2$caption_clean) 
posts2$caption_clean <- gsub("ã\\S*","",posts2$caption_clean) 
posts2$caption_clean <- gsub("Û\\S*","",posts2$caption_clean) 
posts2$caption_clean <- gsub("ë\\S*","",posts2$caption_clean)
posts2$caption_clean <- gsub("ê\\S*","",posts2$caption_clean)
posts2$caption_clean <- gsub("追\\S*","",posts2$caption_clean)

Кто-нибудь знает, как я могу упростить это?

Спасибо!

1 Ответ

0 голосов
/ 14 декабря 2018
# construct regex where each target pattern is a group ()
# enclose groups in [] to target any of those groups

regex <- "[(Ã\\S*)(â\\S*)(ð\\S*)]" 
string <- "Ã  x â x ð y "
gsub(regex, "", string)

результат:

[1] "  x  x  y "
...