Есть ли способ обнаружить скрытое перенаправление URL-адреса с помощью python запросов, механизации или других? - PullRequest
0 голосов
/ 03 августа 2020

Я искал это довольно много, так что, возможно, мой поисковый запрос «скрытое перенаправление» неверен, но я не могу найти никакого способа определить, когда это происходит. В частности, если вы хотите увидеть пример, это работает на сегодняшний день: https://www.alovelystyle.com/

Как видите, на самом деле go не соответствует сайт, он идет к какой-то китайской компании по производству подшипников, которая выглядит как вариант http://www.tht-bearing.com/.

Мне действительно нужно обнаруживать такие скрытые перенаправления, но если я сделаю базовый c python запрашивает звонок:

import requests as req

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
           'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
           'Accept-Encoding': 'gzip, deflate',
           'Accept-Language': 'en-US,en;q=0.9',
           'Connection': 'keep-alive'}

r = req.get('https://www.alovelystyle.com/', headers=headers)
print(r.status_code)
print(r.url)

Я получаю:

200
http://www.alovelystyle.com/

, что очень вводит в заблуждение.

Я пробовал тест содержимого страницы (глядя на r.text или r.content), но он ненадежен, поскольку некоторые сайты возвращают фактическое содержимое страницы, поэтому я могу посмотреть, правильный ли это сайт, а другие - нет. Так что, к сожалению, у меня это в целом не сработает.

Другие идеи? Аспекты запросов, механизации или других библиотек, которые могут помочь? TIA.

...