Dofollow ссылки отключены с помощью URL-запросов в Python - PullRequest
0 голосов
/ 05 декабря 2018

Я создал легкую веб-утилиту для анализа профиля пользователя в ResearchGate.Ранее, когда я использовал следующий код, я мог находить и посещать ссылки href, но теперь, после запуска программы несколько раз, я получаю только одно упоминание href о включении javascript в dofollow.

Мой код выглядит следующим образом:

import requests
from bs4 import BeautifulSoup
import re

main_url = 'https://www.researchgate.net/profile/Luqun_Li3'
url =  main_url + '/research'
page = requests.get(url)

bs = BeautifulSoup(page.content, features='lxml')

pub_links = []
for link in bs.findAll('a'):
    print(link)
    if 'publication/' in link.get('href'):
        pub_links.append(link.get('href'))
        print('found link')
        visiting_links = remove_dupes(pub_links)

Ранее, когда я выполнял код afoemrntioend, я мог просматривать и обнаруживать ссылки, которые начинались с 'публикации /', но теперь есть только одна доступная ссылка, говорящая:

'a href ="http://www.enable -javascript.com /" rel = "nofollow noopener" target = "_ blank"> инструкции по включению JavaScript в вашем веб-браузере a

Может ли кто-нибудь помочь мне включить JavaScript для ссылок dofollow, чтобыЯ могу продолжать использовать эту программу для разбора?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...