Question

Не могли бы вы помочь мне понять это? Я пытаюсь очистить этот сайт https://industrydirectory.mjbizdaily.com/accounting/ Я пытаюсь очистить все ссылки, такие как https://industrydirectory.mjbizdaily.com/420-businesses/, но я не могу понять это

from bs4 import BeautifulSoup
import requests

url = 'https://industrydirectory.mjbizdaily.com/accounting/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
test = soup.find_all('ul', class_='business-results')
print(test)

Sers · Answer 1 · 23 октября 2019

Вы можете использовать #main a, чтобы получить все URL:

urls = [url["href"] for url in soup.select("#main a")]

Список словарей с ключом в качестве текста и значением в качестве URL:

urls = []
for url in soup.select("#main a"):
    print(url.text, url["href"])
    urls.append({url.text: url["href"]})

Caleb Njiiri · Answer 2 · 23 октября 2019

Это то, что вы ищете

for each in test:
  li = each.findAll('li')
  for a in li:
    print(a.find('a').attrs['href'])

я хочу извлечь href для ссылок на этом конкретном сайте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

я хочу извлечь href для ссылок на этом конкретном сайте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов