Я пытаюсь проанализировать> 50000 твитов и пытаюсь очистить эти данные перед дальнейшим анализом.
Я использую пакет TM для очистки моих данных.Я пытаюсь удалить все URL-адреса, я удалил http-URL, но у меня остались https URL-адреса.Если я попытаюсь добавить пользовательское удаление для них, я в итоге удаляю часть https и остаюсь с оставшейся частью URL (без косой черты и пунктуации)
tweets_corp <- Corpus(VectorSource(the_tweets))
twitterHandleRemover <- function(x) gsub("@\\S+","", x)
urlRemover <- function(x) gsub("http:[[:alnum:]]*","", x)
urlSecond <- function(x) gsub("https:[[:alnum:]]*","" ,x)
hashtagRemover <- function(x) gsub("#\\S+","", x)
cleaner <- function(tweets_corp){
tweets_corp <- tm_map(tweets_corp, removeNumbers)
tweets_corp <- tm_map(tweets_corp, content_transformer(urlRemover))
tweets_corp <- tm_map(tweets_corp, content_transformer(urlSecond))
tweets_corp <- tm_map(tweets_corp, content_transformer(twitterHandleRemover))
tweets_corp <- tm_map(tweets_corp, content_transformer(hashtagRemover))
tweets_corp <- tm_map(tweets_corp, removePunctuation)
tweets_corp <- tm_map(tweets_corp, content_transformer(tolower))
return(tweets_corp)
}
Вот пример моих твитов дочтобы очистить
#ignore [example] and []
#SONA2019 #DUTShooting #WitsShutdown https:[example][//t.co]/Dbha6MsWec
Это то, что у меня осталось
tcodbhamswec
Я также попытался добавить эту функцию
toSpace = content_transformer(function(x,pattern)gsub(pattern,"",x))
tweets_corp <- tm_map(tweets_corp, toSpace,"(f|ht)tp(s?)://(.*)[.][a-z]+")
и закончить с этим
dbhamswec