Question

Я пытаюсь почистить URL-адреса с новостного сайта. В частности, это URL-адреса новостных статей, перечисленных в результатах поиска для определенного c поискового запроса.

Я новичок в BeautifulSoup и не знаю, как выборочно очистить только те ссылки, которые Отнесите меня к статье (когда я пытаюсь отыскать для детей hrefs в тегах div, я просто получаю пустой набор, а когда я очищаю теги, я получаю гораздо больше URL, чем хочу.

Есть мысли?

Вот ссылка на веб-страницу: https://www.thenational.ae/search?q=aramco

Вот код, который я использую.

import requests, random, re
from bs4 import BeautifulSoup as bs

url = "https://www.thenational.ae/search?q=aramco"
webpage = requests.get(url)
soup = bs(webpage.text, "html.parser")
for link in soup.find_all('h1'):
    print(link.get('href'))

Damzaky · Answer 1 · 21 марта 2020

Вам необходимо понять структуру HTML. Из структуры вы можете видеть, что hrefs, который вам нужен, это дети того же самого div с классом small-article-desc. В общем, вы делаете это так:

import requests, random, re
from bs4 import BeautifulSoup as bs

url = "https://www.thenational.ae/search?q=aramco"
webpage = requests.get(url)
soup = bs(webpage.text, "html.parser")
for div in soup.find_all('div', {"class": "small-article-desc"}):
    a = div.find_all('a')
    print(a[0].get('href'))

Как мне выборочно соскобить hrefs с тегов div?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне выборочно соскобить hrefs с тегов div?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов