Привет, у меня следующая проблема:
Я извлек список URL-адресов из файла .txt с помощью Python, используя это:
import re
with open('html.txt') as f:
urls = f.read()
links = re.findall('"((http)s?://.*?)"', urls)
for url in links:
print(url[0])
И выход содержит для некоторых файлов следующее:
https://url.com/?download_file=259&order=wc_order_xDxDxD&email=testmail%40gmail.com&key=1234-1234-1234-1234-8c368abd9c22
ПРОБЛЕМА:
, как вы видите, распечатано "# 038;" Я думаю, что это переводится как «&», но перед ним уже есть «&», и если я перейду по ссылке, она недействительна.
Однако, если я удалю все "# 038;" Ссылка работает нормально.
Как их распечатать, чтобы у меня не было "# 038;" внутри и ссылка работает?
Большое спасибо