Используя мой алгоритм ниже, я пытаюсь отфильтровать div
:
from bs4 import BeautifulSoup
for link in soup.select('div > a[href*="/tarefa"]'):
ref=link.get('href')
rt = ('https://brainly.com.br'+str(ref))
p.append(rt)
print(p)
Div
Ниже:
<div class="sg-content-box__content"><a href="/tarefa/2254726">
настроить:
<div class="sg-content-box"><a href="/tarefa/21670613">
Но при этом Return пуст. В чем может быть ошибка в этой части?
Ожидаемый выход: Примеры.
/tarefa/2254726
/tarefa/21670613
Как мне проверить это из? Иногда страница заканчивала тем, что меняла содержимое, где href - это большой объем данных, для чего нужно что-то вроде 'div> a [href * = "/ task"]', чтобы вы могли искать его. ключевое слово 'задача', а не создание переменной, уже содержащей содержимое.
Полный алгоритм:
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
browser =webdriver.Firefox(executable_path=r'C:/path/geckodriver.exe')
browser.get('https://brainly.com.br/app/ask?entry=hero&q=jhyhv+vjh')
html = browser.execute_script("return document.documentElement.outerHTML")
p=[]
soup=BeautifulSoup(html,'html.parser')
for link in soup.select('div > a[href*=""]'):
ref=link.get('href')
rt = ('https://brainly.com.br'+str(ref))
p.append(rt)
print(p)