Как связать юникодную ссылку в HTML - PullRequest
2 голосов
/ 24 сентября 2019

Я ползаю в Интернете.Я получаю следующий HTML-код

<a href="http://&#65346;&#65345;&#65348;&#65294;&#65347;&#65359;&#65357;">Bad URL</a>

Это строка*http://bad.com Мне нужно сравнить собранные URL-адреса со списком URL-адресов из белого списка.Как мне конвертировать http://bad.com в http://bad.com, используя Python?Можно ли сравнить два URL-адреса?

Заменяют ли браузеры "смешанные" символы?

1 Ответ

2 голосов
/ 24 сентября 2019

Вы можете использовать unicodedata:

import unicodedata

link = 'http://bad.com'
normalized = unicodedata.normalize('NFKC', link)

Что такое 'NFKC' вы можете найти в официальных документах .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...