Как я могу очистить все ссылки в векторе веб-страниц? - PullRequest
0 голосов
/ 20 апреля 2020

Мне нужно очистить все атрибуты sr c от всего iframe, содержащего «fibalivestats.com», найденного внутри ссылок на игры.

Первоначальный URL-адрес - это приспособление, в котором хранятся все ссылки игр.

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import chromedriver_binary
from bs4 import BeautifulSoup

options = webdriver.ChromeOptions()
options.add_argument('headless')

browser = webdriver.Chrome(options=options)
browser.get('https://www.argentina.basketball/tfb/fixture/de/division-buenos-aires')

partidos = browser.find_elements_by_tag_name('a')

for partido in partidos:
    if partido.get_attribute('href').find('https://www.argentina.basketball/tfb/partido/') == 0:
        hrefs.append(partido.get_attribute("href"))

Затем я разделяю фреймы, выполняя 'for' l oop для href, который меня интересует, но некоторые не берут все ссылки (это происходит случайным образом)

hrefs=[]
fibalive=[]
errores=[]
j = 0
a = 0

for href in hrefs:
    browser.get(href)
    try:
        if browser.find_element_by_tag_name('iframe').get_attribute('src').find('https://www.fibalivestats.com/') == 0:
            fibalive.append(browser.find_element_by_tag_name('iframe').get_attribute('src'))    
    except NoSuchElementException as exception:
        j = j + 1
        file = open('D:/Desktop/Partidos/partidos'+str(j)+'.txt',"w")
        file.write(browser.page_source)
        file.close()

При создании .txt из источника page_source ссылок, генерирующих исключение, html выглядит следующим образом:

<html><head></head><body></body></html>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...