Я пытаюсь изменить основную функцию, которая может: 1) удалить дефисы в http (которые появились в корпусе), но, тем временем, 2) сохранить дефисы, которые появились в значимых выражениях через дефис (например, отнимающие много времени, стоимость)- непомерно и т. д.).Я действительно задавал похожие вопросы несколько месяцев назад в другой ветке вопросов , код выглядит так:
# load stringr to use str_replace_all
require(stringr)
clean.text = function(x)
{
# remove rt
x = gsub("rt ", "", x)
# remove at
x = gsub("@\\w+", "", x)
x = gsub("[[:punct:]]", "", x)
x = gsub("[[:digit:]]", "", x)
# remove http
x = gsub("http\\w+", "", x)
x = gsub("[ |\t]{2,}", "", x)
x = gsub("^ ", "", x)
x = gsub(" $", "", x)
x = str_replace_all(x, "[^[:alnum:][:space:]'-]", " ")
#return(x)
}
# example
my_text <- "accident-prone"
new_text <- clean.text(text)
new_text
[1] "accidentprone"
, но не смог получить удовлетворительный ответ, затем я переключил свое внимание на другие проекты, пока не возобновил работу над этим.Похоже, что "[^[:alnum:][:space:]'-]"
в последней строке блока кода является виновником, который также удалил -
из части корпуса, не относящейся к http.
Я не мог понять, как добиться желаемых результатов, будет очень признателен, если кто-то может предложить свои идеи по этому вопросу.