Я ищу регулярное выражение для удаления каждого URL или доменного имени из строки, так что:
string='this is my content domain.com more content http://domain2.org/content and more content domain.net/page'
становится
'this is my content more content and more content'
Достаточно удалить наиболее распространенные tldsдля меня, поэтому я попытался
string = re.sub(r'\w+(.net|.com|.org|.info|.edu|.gov|.uk|.de|.ca|.jp|.fr|.au|.us|.ru|.ch|.it|.nel|.se|.no|.es|.mil)\s?','',string)
, но это удаляет слишком много материала, а не только URL-адреса.Какой будет правильный синтаксис?