Я абсолютный новичок в Web Scraping с использованием Python и просто очень мало знаю о программировании на Python. Я просто пытаюсь получить информацию о юристах в штате Теннесси. На веб-странице есть несколько ссылок, внутри которых есть еще больше ссылок, и внутри них находятся различные юристы.
Пожалуйста, не могли бы вы сказать мне шаги, которым я должен следовать.
Я закончил, пока не извлек ссылки на первой странице, но мне нужны только ссылки на города, тогда как у меня есть все ссылки с тегами href
. Теперь, как я могу их повторить и продолжить?
from bs4 import BeautifulSoup as bs
import pandas as pd
res = requests.get('https://attorneys.superlawyers.com/tennessee/', headers = {'User-agent': 'Super Bot 9000'})
soup = bs(res.content, 'lxml')
links = [item['href'] for item in soup.select('a')]
print(links)```
It is printing
````C:\Users\laptop\AppData\Local\Programs\Python\Python36-32\python.exe C:/Users/laptop/.PyCharmCE2017.1/config/scratches/scratch_1.py
['https://www.superlawyers.com', 'https://attorneys.superlawyers.com', 'https://ask.superlawyers.com', 'https://video.superlawyers.com',.... ````
All the links are extracted whereas I only need the links of the cities. Kindly help.