Question

Я пытаюсь перебрать несколько страниц футбольного сайта.Все ссылки находятся в списке teamLinks.Пример одной из ссылок: 'http://www.premierleague.com//clubs/1/Arsenal/squad?se=79'. Мне было просто интересно, можно ли заставить функцию запросов ждать, пока страница полностью не обновится, прежде чем она будет реализована.Если вы нажмете на ссылку, она сначала отобразит команду 2018/2019, а затем обновится до команды 2017/2018, которая мне нужна.

playerLink1 = []
playerLink2 = []

for i in range(len(teamLinks)):

    # Request
    squadPage = requests.get(teamlinks[i])
    squadTree = html.fromstring(squadPage.content)

    #Extract the player links.
    playerLocation = squadTree.cssselect('.playerOverviewCard')

    #For each player link within the team page.
    for i in range(len(playerLocation)):

        #Save the link, complete with domain.
        playerLink1.append("http://www.premierleague.com/" + 
        playerLocation[i].attrib['href'] + '?se=79')
        #For the second link, change the page from player overview to stats
        playerLink2.append(playerLink1[i].replace("overview", "stats"))

Kamal · Answer 1 · 18 марта 2019

Страница, которую вы пытаетесь удалить, использует Javascript для загрузки нужного вам списка игроков.

Вариант 1: Вы можете использовать этот новый модуль под названием reports-html (я никогда не пробовал), который утверждает, что поддерживает Javascript.

Вариант 2: Используя devtools из Chrome, я мог найти фактический XHR-запрос, сделанный страницей, чтобы получить список игроков. Этот код может получить требуемый вывод с модулем запросов.

import json
playerLink1 = []
playerLink2 = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36',
'Origin': 'https://www.premierleague.com',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Referer': 'https://www.premierleague.com//clubs/1/Arsenal/squad?se=79'}

res = requests.get('https://footballapi.pulselive.com/football/teams/1/compseasons/79/staff?altIds=true&compCodeForActivePlayer=EN_PR', headers=headers)

player_data = json.loads(res.content.decode('utf-8'))

for player in player_data['players']:
    href = 'https://www.premierleague.com/players/{}/{}/'.format(player['id'], player['name']['display'].replace(' ', '-'))
    playerLink1.append("http://www.premierleague.com/" + href + "overview" + '?se=79')
    playerLink2.append(href + "stats")

KunduK · Answer 2 · 18 марта 2019

Я нашел одно решение. Вы должны использовать селен webdriver в режиме headless, получить page_source из драйвера и дать time.sleep(). Я проверил данные, которые он показывает, как и ожидалось.

Однако я не знаю ваш список URL, поэтому вы можете создать свой список и попробовать его. Дайте мне знать, если вам нужна дополнительная помощь.

from selenium import webdriver
from bs4 import BeautifulSoup
import time

teamlinks=['http://www.premierleague.com//clubs/1/Arsenal/squad?se=79','http://www.premierleague.com//clubs/1/Arsenal/squad?se=54']
playerLink1 = []
playerLink2 = []


    for i in range(len(teamlinks)):
        chrome_options = webdriver.ChromeOptions()
        chrome_options.add_argument('--headless')
        chrome_options.add_argument('window-size=1920x1080');
        driver = webdriver.Chrome(options=chrome_options)
        driver.get(teamlinks[i])
        time.sleep(10)
        squadPage=driver.page_source
        soup = BeautifulSoup(squadPage, 'html.parser')
        playerLocation = soup.findAll('a', class_=re.compile("playerOverviewCard"))
        for i in range(len(playerLocation)):

            #Save the link, complete with domain.
            playerLink1.append("http://www.premierleague.com/" +
            playerLocation[i]['href'] + '?se=79')
            #For the second link, change the page from player overview to stats
            playerLink2.append(playerLink1[i].replace("overview", "stats"))
        driver.quit()
    print(playerLink2)

Подождите, пока страница загрузится, прежде чем очищать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подождите, пока страница загрузится, прежде чем очищать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов