Python найденный URL недействителен - PullRequest
0 голосов
/ 08 мая 2020

Привет, у меня следующая проблема:

Я извлек список URL-адресов из файла .txt с помощью Python, используя это:

 import re

with open('html.txt') as f:
    urls = f.read()
    links = re.findall('"((http)s?://.*?)"', urls)
for url in links:
    print(url[0])

И выход содержит для некоторых файлов следующее:

https://url.com/?download_file=259&order=wc_order_xDxDxD&email=testmail%40gmail.com&key=1234-1234-1234-1234-8c368abd9c22

ПРОБЛЕМА:

, как вы видите, распечатано "# 038;" Я думаю, что это переводится как «&», но перед ним уже есть «&», и если я перейду по ссылке, она недействительна.

Однако, если я удалю все "# 038;" Ссылка работает нормально.

Как их распечатать, чтобы у меня не было "# 038;" внутри и ссылка работает?

Большое спасибо

Ответы [ 2 ]

0 голосов
/ 08 мая 2020

Похоже, проблема с кодировкой URL. Поскольку вы только печатаете, вы можете использовать функцию замены строки.

for url in links:
    url[0].replace("#038","") 
0 голосов
/ 08 мая 2020

Вы почти у цели & = &

HTML Символы ACII

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...