Есть ли способ определить, когда URL должен быть декодирован дважды? - PullRequest
0 голосов
/ 06 марта 2019

У меня есть следующий URL:

https://www.example.com/%2522%25D0%25B7%25D0%25B5%25D0%25BB%25D0%25B5%25D0%25BD-%25D1%2581%25D0%25B2%25D1%258F%25D1%2582%2522

Если я цитирую URL-адрес, я получаю следующее:

>>> urllib.parse.unquote(url)
'https://www.example.com/%22%D0%B7%D0%B5%D0%BB%D0%B5%D0%BD-%D1%81%D0%B2%D1%8F%D1%82%22'

Что говорит мне, что мне нужно снова его цитировать,вот так:

>>> urllib.parse.unquote(url)
'https://www.example.com/%22%D0%B7%D0%B5%D0%BB%D0%B5%D0%BD-%D1%81%D0%B2%D1%8F%D1%82%22'

Я заметил, что с большинством URL-адресов, которые были закодированы дважды, в них есть% 25 (символ кавычки).Это эффективно для определения URL, который должен быть декодирован дважды, или есть больше символов?Если вы делаете это для миллиардов URL-адресов, большинство из которых подходит для одного декодирования, есть ли какие-либо недостатки в декодировании дважды для каждого URL-адреса?

...