Проблемы при попытке полностью удалить текст https из моего анализа Twitter - PullRequest
0 голосов
/ 09 февраля 2019

Я пытаюсь проанализировать> 50000 твитов и пытаюсь очистить эти данные перед дальнейшим анализом.

Я использую пакет TM для очистки моих данных.Я пытаюсь удалить все URL-адреса, я удалил http-URL, но у меня остались https URL-адреса.Если я попытаюсь добавить пользовательское удаление для них, я в итоге удаляю часть https и остаюсь с оставшейся частью URL (без косой черты и пунктуации)

tweets_corp <- Corpus(VectorSource(the_tweets))
twitterHandleRemover <- function(x) gsub("@\\S+","", x)
urlRemover <- function(x) gsub("http:[[:alnum:]]*","", x)
urlSecond <- function(x) gsub("https:[[:alnum:]]*","" ,x)
hashtagRemover <- function(x) gsub("#\\S+","", x)
cleaner <- function(tweets_corp){
  tweets_corp <- tm_map(tweets_corp, removeNumbers)
  tweets_corp <- tm_map(tweets_corp, content_transformer(urlRemover))
  tweets_corp <- tm_map(tweets_corp, content_transformer(urlSecond))
  tweets_corp <- tm_map(tweets_corp, content_transformer(twitterHandleRemover))
  tweets_corp <- tm_map(tweets_corp, content_transformer(hashtagRemover))
  tweets_corp <- tm_map(tweets_corp, removePunctuation)
  tweets_corp <- tm_map(tweets_corp, content_transformer(tolower))
  return(tweets_corp)
}

Вот пример моих твитов дочтобы очистить

#ignore [example] and []
#SONA2019 #DUTShooting #WitsShutdown https:[example][//t.co]/Dbha6MsWec

Это то, что у меня осталось

tcodbhamswec

Я также попытался добавить эту функцию

toSpace = content_transformer(function(x,pattern)gsub(pattern,"",x))
tweets_corp <- tm_map(tweets_corp, toSpace,"(f|ht)tp(s?)://(.*)[.][a-z]+")

и закончить с этим

dbhamswec

1 Ответ

0 голосов
/ 09 февраля 2019

Мне удалось решить эту проблему, добавив знак вопроса в мой URL для удаления, предположительно удаляя необязательный пробел

  tweets_corp <- tm_map(tweets_corp, toSpace," ?(f|ht)tp(s?)://(.*)[.][a-z]+")
...