Я делаю предварительную обработку текста, и в моем тексте есть веб-сайты. Я хочу удалить их, но я не смог этого сделать.
Ниже приведен пример текста:
\ n \ nВсемирная сеть (www) \ n \ nНазвание всего документа, связанного гиперссылками в Интернете; часто используется как синоним последнего26. \ n \ n \ n \ n \ n \ n \ n \ n24 \ xe2 \ x80 \ x83 \ t www.sicherheitskultur.at, Глоссарий по информационной безопасности \ n \ n25 \ xe2 \ x80 \ x83 \ t Источник текста (частично): KS \ xc3 \ x96: Матрица киберрисков - Глоссарий \ n \ n26 \ xe2 \ x80 \ x83 \ t www.sicherheitskultur.at, Глоссарий информационной безопасности \ n \ n \ n \ n \ n \ n23 \ n '
Веб-сайты видимы (выделены жирным шрифтом), и я хочу удалить их.
Я пробовал один код ( из ответа StackOverflow - Python код для удаления тегов HTML из строки ), но он не удаляет эти веб-сайты.
Ниже приведены коды:
def remove_web(text):
cleanr = re.compile('<.*?.*#>')
text = re.sub(cleanr, '', text)
return text
Заранее спасибо!