извлечение html-содержимого из URL-адреса gitlab - PullRequest
1 голос
/ 14 апреля 2019

Я пытаюсь получить html-контент из URL-адреса gitlab.
Но меня поразила страница входа в Gitlab, и я получаю html-содержимое страницы входа даже после ввода имени пользователя и пароля.

Код:

    from bs4 import BeautifulSoup 
    import requests
    username = "username"
    password = "password"
    url = "HTTP://gitlab.com/saikumar/webhooktslint"
    result=requests.get(url, auth=("username", "password")).content  /* 
    gets 
    content from the site */
    soup = BeautifulSoup(result,'lxml')
    for link in soup:
       print link

Выход:

   Getting HTML content of sign_in page.

Ожидаемый результат:

   Need to get the HTML content of the URL specified.

1 Ответ

0 голосов
/ 14 апреля 2019

Я не вижу репо webhooktslint на вашей странице gitlab.com/saikumar, поэтому, скорее всего, это будет частный репозиторий.

Глядя на использование Python GitLab CLI , убедитесь, что правильно настроили ~/.python-gitlab.cfg файл конфигурации пользователя, с приватным токеном GitLab : вам не придется иметь дело с учетными данными тогда.

Команда gitlab python сделает скручивание за вас, включая получение необработанных данных файла .

Но тот же самый личный токен может помочь аутентифицировать вас при попытке сделать GET частного репо, как вы делаете это в своем коде (если вы ищете реальный контент HTML-страницы).

Главное, чтобы получить доступ к частному репо, используйте PAT (токен личного доступа) вместо действительного пароля учетной записи.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...