Я ищу способ очистки данных на сайтах студенческого жилья: https://www.uniplaces.com/en/accommodation/berlin.
В конце я хотел бы собрать конкретную информацию для каждого свойства, такую как размер спальни, количество соседей по комнате, местоположение. Для этого мне сначала придется очистить все ссылки на свойства, а затем очистить отдельные ссылки.
Однако, даже пройдя через консоль и использовав BeautifulSoup для извлечения URL-адресов, я не смог извлечь URL-адреса, ведущие к отдельным спискам. Похоже, они не включены как [href], и я не смог идентифицировать ссылки в любом другом формате в HTML-коде.
Это код Python, который я использовал, но он также ничего не возвращал:
из bs4 импортировать BeautifulSoup
импорт urllib.request
resp = urllib.request.urlopen("https://www.uniplaces.com/accommodation/lisbon")
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))
for link in soup.find_all('a', href=True):
print(link['href'])
Итак, мой вопрос: если ссылки не включены в формат http: // или на них нет ссылки [href]: есть ли способ извлечь URL списков?
Я бы очень признателен за любую поддержку в этом!
Всего наилучшего,
Ханна