Я - новичок в программировании и в StackOverflow, и мне просто нужно выполнить некоторые базовые операции по сбору веб-страниц со страницы TripAdvisor и очистить от них некоторую полезную информацию.Отобразите это красиво и т. Д. Я пытаюсь выделить название кафе, количество оценок и сам рейтинг.Я думаю, что мне может понадобиться преобразовать его в текст и использовать регулярные выражения или что-то?Я действительно не знаю.Примером того, что я имею в виду, может быть:
Вывод:
Coffee Cafe, 4 из 5 пузырьков, 201 отзыв.
Что-то в этом роде.Я поместу свой код так далеко внизу, любая помощь, которую я мог бы получить, была бы удивительной, и я был бы бесконечно благодарен.Ура.
from bs4 import BeautifulSoup
def get_HTML(url):
response = urllib.request.urlopen(url)
html = response.read()
return html
Tripadvisor_reviews_HTML=get_HTML(
'https://www.tripadvisor.com.au/Restaurants-
g255068-c8-Brisbane_Brisbane_Region_Queensland.html')
def get_review_count(HTML):
soup = BeautifulSoup(Tripadvisor_reviews_HTML, "lxml")
for element in soup(attrs={'class' : 'reviewCount'}):
print(element)
get_review_count(Tripadvisor_reviews_HTML)
def get_review_score(HTML):
soup = BeautifulSoup(Tripadvisor_reviews_HTML, "lxml")
for four_point_five_score in soup(attrs={'alt' : '4.5 of 5 bubbles'}):
print(four_point_five_score)
get_review_score(Tripadvisor_reviews_HTML)
def get_cafe_name(HTML):
soup = BeautifulSoup(Tripadvisor_reviews_HTML, "lxml")
for name in soup(attrs={'class' : "property_title"}):
print(name)
get_cafe_name(Tripadvisor_reviews_HTML)