Я только начал программировать. У меня есть задача извлечь данные из HTML-страницы в Excel. Использование Python 3.7. Моя проблема в том, что у меня есть веб-сайт, с большим количеством ссылок внутри. За этими URL снова больше URL. Мне нужны данные за третий URL. Моей первой проблемой было бы, как я могу диктовать программе выбирать только определенные ссылки из ul, а не из каждой ul на странице?
from bs4 import BeautifulSoup
import urllib
import requests
import re
page = urllib.request.urlopen("file").read()
soup = BeautifulSoup(page, "html.parser")
print (soup.prettify ())
for link in soup.find_all("a", href=re.compile("katalog_")):
links= link.get("href")
if "katalog" in links:
for link in soup.find_all("a", href=re.compile("alle_")):
links = link.get("href")
print (soup.get_text ())