проблемы с очисткой (доступ запрещен) - PullRequest
0 голосов
/ 27 марта 2020

Мне нужно получить всю информацию на сайте (я удалил ссылку, потому что вчера кто-то закрыл мой вопрос).

Я работал над этим две недели и три дня go при входе на сайт прямо с Chrome он попросил меня проверить, был ли я роботом, потому что видел странные движения с моего IP. (Я не помню точно, что было написано, но это была концепция).

Сегодня я работал и извлекал некоторые данные (простой список ссылок), и во время второго запуска кода я заметил, что список был пуст. поэтому я проверяю результат поиска requests.get('**site**'), и он отличается от html страницы, которую я обычно просматривал в эти дни.

Наконец я попытался go на сайте непосредственно из браузер, и он открывает мне страницу сайта, но просто пустой с «Отказано в доступе» написано.

Я все еще пытался добавить user-agent в строку запроса, но продолжает давать мне доступ запрещен. вот простой сценарий:

import requests
from bs4 import BeautifulSoup

r = requests.get('site', headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) Gecko/20100101 Chrome/72.0.3626.121'}).text
obj = BeautifulSoup(r, 'html.parser')
print(obj)

ниже приведен вывод

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="noindex,nofollow" name="robots"/>
<title>AZLyrics - request for access</title>
<link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" rel="stylesheet"/>
<link href="https://code.jquery.com/ui/1.12.1/themes/base/jquery-ui.min.css" rel="stylesheet"/>
<link href="/bsaz.css" rel="stylesheet"/>
<!-- HTML5 shim and Respond.js for IE8 support of HTML5 elements and media queries -->
<!--[if lt IE 9]>
      <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
      <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
<script async="" defer="" src="https://www.google.com/recaptcha/api.js"></script>
<script crossorigin="anonymous" integrity="sha256-ZosEbRLbNQzLpnKIkEdrPv7lOy9C27hHQ+Xp8a4MxAQ=" src="https://code.jquery.com/jquery-1.12.4.min.js"></script>
<script src="https://code.jquery.com/ui/1.12.1/jquery-ui.min.js"></script>
<script crossorigin="anonymous" integrity="sha384-Tc5IQib027qvyjSMfHjOMaLkfuWVxZxUPnCJA7l2mCWNIpG9mGCD8wGNIcPD7Txa" src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/js/bootstrap.min.js"></script>
<script type="text/javascript">
    <!-- 
      if (top.location != self.location) {
      top.location = self.location.href
     }
    //--> 
    function az_recaptcha_success(){
        document.getElementById("az_unblock").submit();
    }
    </script>
</head>
<body>
<nav class="navbar navbar-default navbar-static-top text-center">
<div class="container text-center">
<div class="navbar-header" style="float:none; display:inline-block;">
<a class="navbar-brand" href="https://www.azlyrics.com"><img alt="AZLyrics.com" class="pull-left" src="/az_logo_tr.png" style="max-height:40px; margin-top:-10px;"/></a>
</div>
</div><!-- /.container -->
</nav>
<!-- top ban -->
<!--  <div class="lboard-wrap">
  <div class="container">
    <div class="row">
       <div class="col-xs-12 top-ad text-center">
         <span id="cf_banner_top_nofc"></span>
       </div>
    </div>
  </div>
  </div> -->
<!-- main -->
<div class="container main-page">
<div class="row">
<div class="col-xs-12 col-sm-10 col-sm-offset-1 col-md-8 col-md-offset-2 text-center">
<div class="alert alert-danger" role="alert">
                Access denied.
            </div>
</div>
</div>
</div>
</body></html>
 <!-- container main-page -->
<!-- bot ban -->
<!--<div class="lboard-wrap">
  <div class="container">
    <div class="row">
       <div class="col-xs-12 top-ad text-center">
          <span id="cf_banner_bottom"></span>
       </div>
    </div>
  </div>
  </div>-->
<!-- footer -->
<!--<nav class="navbar navbar-footer">
          <div class="container text-center">
          <ul class="nav navbar-nav navbar-center">
            <li><a href="//www.azlyrics.com/adv.html">Advertise Here</a></li>
            <li><a href="//www.azlyrics.com/privacy.html">Privacy Policy</a></li>
            <li><a href="//www.azlyrics.com/cookie.html">Cookie Policy</a></li>
            <li><a href="//www.azlyrics.com/copyright.html">DMCA Policy</a></li>
          </ul>
          </div> 
     </nav>-->
<div class="footer-wrap">
<div class="container">
<small>
<script type="text/javascript">
                curdate=new Date();
                document.write("<strong>Copyright &copy; 2000-"+curdate.getFullYear()+" AZLyrics.com<\/strong>");
             </script>
</small>
</div>
</div>

Как вы думаете, есть ли что-то, что я могу сделать, чтобы продолжить работу на этом сайте?

...