Question

Привет, у меня следующая проблема:

Я извлек список URL-адресов из файла .txt с помощью Python, используя это:

 import re

with open('html.txt') as f:
    urls = f.read()
    links = re.findall('"((http)s?://.*?)"', urls)
for url in links:
    print(url[0])

И выход содержит для некоторых файлов следующее:

https://url.com/?download_file=259&#038;order=wc_order_xDxDxD&#038;email=testmail%40gmail.com&#038;key=1234-1234-1234-1234-8c368abd9c22

ПРОБЛЕМА:

, как вы видите, распечатано "# 038;" Я думаю, что это переводится как «&», но перед ним уже есть «&», и если я перейду по ссылке, она недействительна.

Однако, если я удалю все "# 038;" Ссылка работает нормально.

Как их распечатать, чтобы у меня не было "# 038;" внутри и ссылка работает?

Большое спасибо

Ronald Das · Answer 1 · 08 мая 2020

Похоже, проблема с кодировкой URL. Поскольку вы только печатаете, вы можете использовать функцию замены строки.

for url in links:
    url[0].replace("#038","")

Python найденный URL недействителен

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python найденный URL недействителен

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов