Я пытаюсь удалить URL-адреса, которые могут начинаться или не начинаться с http / https, из большого текстового файла, который я сохранил в urldoc в R. URL-адрес может начинаться как tinyurl.com/ydyzzlkk или aclj.us/2y6dQKw или pic.twitter.com/ZH08wej40K. По сути, я хочу удалить данные до «/» после нахождения пробела и после «/», пока не найду пробел. Я пробовал со многими образцами и искал много мест. Не удалось выполнить задачу. Я бы очень помог мне, если бы вы могли внести свой вклад.
Это последнее утверждение, которое я попробовал и застрял в вышеуказанной проблеме.
urldoc = gsub ("? [a-z] + \ .. \ /. [\ s] $", "", urldoc)
Ввод будет позором для его профессии. pic.twitter.com/ZH08wej40K В крупной победе религиозной свободы, админ. Потрошил институт, продолжая этот путь. goo.gl/YmNELW ничего похожего на админа. предложение: tinyurl.com/ydyzzlkk
Вывод, который я ожидаю, таков: позор его профессии. В крупной победе за свободу вероисповедания, Админ. Потрошил институт, продолжая этот путь. ничего похожего на админа. предложение:
Спасибо.