я хочу извлечь href для ссылок на этом конкретном сайте - PullRequest
0 голосов
/ 23 октября 2019

Не могли бы вы помочь мне понять это? Я пытаюсь очистить этот сайт https://industrydirectory.mjbizdaily.com/accounting/ Я пытаюсь очистить все ссылки, такие как https://industrydirectory.mjbizdaily.com/420-businesses/, но я не могу понять это

from bs4 import BeautifulSoup
import requests

url = 'https://industrydirectory.mjbizdaily.com/accounting/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
test = soup.find_all('ul', class_='business-results')
print(test)

Ответы [ 2 ]

1 голос
/ 23 октября 2019

Вы можете использовать #main a, чтобы получить все URL:

urls = [url["href"] for url in soup.select("#main a")]

Список словарей с ключом в качестве текста и значением в качестве URL:

urls = []
for url in soup.select("#main a"):
    print(url.text, url["href"])
    urls.append({url.text: url["href"]})
0 голосов
/ 23 октября 2019

Это то, что вы ищете

for each in test:
  li = each.findAll('li')
  for a in li:
    print(a.find('a').attrs['href'])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...